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本 书 是 国外 数据 结构 与 算法 分 析 方 面 的 标准 教材 ,介绍 了 数据 结构 (大 量 数据 的 组 织 方法 ) 
以 及 算法 分 析 ( 算 法 运行 时 间 的 估算 )。 本 书 的 编写 目标 是 同时 讲授 好 的 程序 设计 和 算法 分 析 
技巧 ,使 读者 可 以 开发 出 具有 最 高 效率 的 程序 。 

本 书 可 作为 高 级 数据 结构 课程 或 研究 生 一 年 级 算法 分 析 课程 的 教材 ,使 用 本 书 需 具有 一 些 
中 级 程序 设计 知识 ,还 需要 离散 数学 的 一 些 背景 知识 。 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭 更 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ;而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积 淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 图 文 信息 有 限 公司 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 
华章 公司 就 将 工作 重点 放 在 了 进 选 、 移 译 国外 优秀 教材 上 。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Tanenbaum，Stroustrup，Kernighan， 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 皮 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 占 力 襄 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专 诚 为 其 书 的 中 译本 作 序 。 思 今 ,，“ 计 算 机 科学 丛书” 已 经 出 版 了 近 百 个 
品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ,教育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 人 一 个 新 的 阶段 。 为 此 ， 华 章 公司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 丛书 ”之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原版 书库 ”; 同时 ， 引 进 全 美 通行 的 教学 辅导 书 “Schaum's Outlines” 系 列 组 成 
“全 美 经 典 学 习 指 导 系 列 "。 为 了 保证 这 三 套 丛书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公司 聘请 了 中 国 科学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 
海 交通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科技 大 学 、 哈 尔 滨 工 业 大 学 、 西 安 交通 大 学 、 中 国 
ARAS. 、 北 京 航空 航天 大 学 、 北 京 邮 电大 学 、 中 山大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 湖 
北 工学 院 、 中 国 国家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 "， 为 我 们 提供 选 题 意见 和 出 版 监督 。 

这 三 套 丛 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 


的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M. I T., Stanford, U.C. Berkeley, C. M. U. 等 世界 
名 牌 大 学 所 采用 。 不 仅 涵盖 了 程序 设计 、 数 据 结构 、 操 作 系 统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工程 、 图 形 学 、 通 信 与 网 络 、 离 散 数学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语言 设计 者 之 手 、 有 的 历经 三 十 年 而 不 衰 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采 用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ,读者 必 将 在 计算 机 科学 的 
宫殿 中 由 登 堂 而 人 室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服务 的 起 点 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 





电子 邮件 : hzeduGhzbook.com 
联系 电话 : (010) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 
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译 者 & 


随 着 速度 的 不 断 提高 和 存储 容量 的 持续 增长 ,计算 机 的 功能 日 益 强大 ,从 而 处 理 数据 和 解 
决 问题 的 规模 和 复杂 程度 与 日 俱 增 。 这 不 仅 带 来 了 需要 认真 研究 的 新 课题 ,而 且 突出 了 原 有 
数据 结构 和 算法 效率 低下 的 缺点 。 程 序 的 效率 问题 不 是 由 于 计算 机 功能 的 强大 而 受到 冷落 ， 
相反 地 ,倒是 被 人 们 提 到 前 所 未 有 的 重视 程度 ,因为 大 型 问题 的 解决 所 涉及 到 的 大 容量 存储 和 
高 速度 运算 容 不 得 我 们 对 效率 有 丝毫 的 忽视 。 本 书 正 是 在 阐述 数据 结构 基本 概念 的 同时 深信 
地 分 析 了 算法 的 效率 。 书 中 详细 介绍 了 当前 流行 的 论题 和 新 的 变化 ,讨论 了 算法 设计 技巧 ,并 
在 研究 算法 的 性 能 、 效 率 以 及 对 运行 时 间 分 析 的 基础 上 考查 了 一 些 高 级 数据 结构 ,从 历史 的 角 
度 和 近年 的 进展 对 数据 结构 的 活跃 领域 进行 了 简要 的 概括 。 由 于 本 书 选 材 新 颖 ,方法 实用 , 题 
例 丰富 ,取舍 得 当 , 因 此 ,自从 出 版 以 来 受到 广泛 欢迎 ,已 被 世界 许多 知名 大 学 用 作 教材 。 

本 书 的 目的 是 培养 学 生 良 好 的 程序 设计 技巧 和 熟练 的 算法 分 析 能 力 ,使 得 他 们 能 够 开发 
出 高 效率 的 程序 。 从 服务 于 实践 又 锻炼 学 生 实 际 能 力 出 发 , 书 中 提供 了 大 部 分 算法 的 C 程序 
和 伪 码 例 程 ,但 并 不 是 全 部 。 一 些 程序 可 从 互联 网 上 获得 。 

承 壹 卢 开 澄 教授 、 陈 贤 舜 先生 、 温 丽 芳 女士 的 鼓励 , 译 者 有 幸 将 国外 几 部 优秀 原著 介绍 给 
我 国 的 读者 ; 蒋 顶 先生 认真 的 工作 使 本 书 译文 免除 不 少 朴 漏 和 错误 ; 杨 海 玲 女 士 的 监督 使 翻译 
工作 比 预想 的 顺利 。 译 者 在 此 表示 衷心 的 感谢 。 译 者 还 愿意 借 此 机 会 感谢 挚友 孙 华 先生 ,他 
对 本 书 的 翻译 工作 自始至终 给 予 热心 的 关怀 和 无 私 的 帮助 。 

由 于 时 间 及 水 平 所 限 , 书 中 译文 不 当 之 处 , 统 祈 学 术 界 同仁 及 广大 读者 赐 正 。 


译 者 
2003 年 9 月 
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目的 /目标 


本 书 讨论 数据 结构 和 算法 分 析 。 数 据 结构 主要 研究 组 织 大 量 数据 的 方法 ,而 算法 分 析 则 
是 对 算法 运行 时 间 的 评估 。 随 着 计算 机 的 速度 越 来 越 快 ,对 于 能 够 处 理 大 量 输入 数据 的 程序 
的 需求 变 得 日 益 急切 。 可 是 ,由 于 在 输入 量 很 大 的 时 候 ,程序 的 低 效率 现象 变 得 非常 明显 , 因 
此 这 又 要 求 对 效率 问题 给 予 更 仔细 的 关注 。 通 过 在 实际 编程 之 前 对 算法 的 分 析 , 学 生 可 以 决 
定 一 个 特定 的 解法 是 否 可 行 。 例 如 ,学 生 在 本 书 中 将 读 到 一 些 特定 的 问题 并 看 到 精心 的 实现 
方法 是 如 何 把 对 大 量 数据 的 时 间 限 制 从 16 年 减 至 不 到 1 秒 的 。 因 此 , 若 无 运 行 时 间 的 病 释 ， 
就 不 会 有 算法 和 数据 结构 的 提出 。 在 某 些 情况 下 ,对 于 影响 算法 实现 的 运行 时 间 的 一 些微 小 
细节 都 需要 认真 地 探究 。 

一 旦 解法 被 确定 ,程序 还 是 必须 要 编写 的 。 随 着 计算 机 的 日 益 强大 ,它们 必须 解决 的 问题 
就 变 得 更 加 巨大 和 复杂 ,这 就 要 求 开发 更 加 复杂 的 程序 。 本 书 的 目的 是 同时 教授 学 生 良好 的 
程序 设计 技巧 和 算法 分 析 能 力 ,使 得 他 们 能 够 开发 这 样 的 具有 最 高 效率 的 程序 。 

本 书 适合 作为 高 级 数据 结构 (CS7) 课 程 或 是 研究 生 第 一 年 算法 分 析 课程 的 教材 。 学 生 应 
该 具有 中 等 程度 的 程序 设计 知识 ,包括 像 指针 和 递归 这 样 一 些 内 容 , 还 要 具有 离散 数学 的 某 些 
知识 。 
方法 

我 相信 ,对 于 学 生 重要 的 是 学 习 如 何 自己 动手 编写 程序 ,而 不 是 从 书 上 拷贝 程序 。 但 另 一 
方面 ,讨论 现实 程序 设计 问题 而 不 套用 样本 程序 实际 上 是 不 可 能 的 。 由 于 这 个 原因 ,本 书 通常 
提供 实现 方法 的 大 约 一 半 到 四 分 之 三 的 内 容 并 鼓励 学 生 补足 其 余 的 部 分 。 第 12 章 是 这 一 版 
新 加 的 一 章 , 讨 论 主要 侧重 于 实现 细节 的 一 些 附加 的 数据 结构 。 

本 书 中 的 算法 均 以 ANSI C 表示 ,尽管 有 些 欠 缺 ,但 它 仍然 是 最 流行 的 系统 程序 设计 语 
言 。C 代替 Pascal 的 使 用 使 得 动态 分 配 数组 成 为 可 能 (可 见 第 5 章 中 的 “再 散 列 ")。 它 还 在 几 
处 地 方 将 代码 简化 ,这 通常 是 因为 与 (&&) 操 作 走 捷径 的 缘故 。 

对 C 的 大 多 数 批评 集中 在 用 它 写 出 的 程序 代码 可 读 性 差 的 事实 上 。 仅 仅 少 击 几 次 键 , 却 
牺牲 了 程序 清晰 性 ,而 程序 的 速度 又 没有 增加 。 因 此 ,诸如 同时 赋值 以 及 通过 

if(x-y) 
测试 是 否 为 0 等 技巧 一 般 不 在 本 书 中 使 用 。 相 信 本 书 将 证 明 只 要 细心 练习 是 可 以 避免 那些 难 
以 读 懂 的 代码 的 。 


内 容 提要 
第 1 章 包含 离散 数学 和 递归 的 一 些 复习 材料 。 我 相信 对 递归 做 到 泰然 处 之 的 惟一 办 法 是 
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反复 不 断 地 看 一 些 好 的 用 法 。 因 此 , 除 第 5 章 外 ,递归 遍及 本 书 每 一 章 的 例子 之 中 。 

第 2 章 处 理 算法 分 析 。 这 一 章 阐述 渐进 分 析 和 它 的 主要 弱点 。 这 里 提供 了 许多 例子 , 包 
括 对 对 数 运行 时 间 的 深入 解释 。 通 过 直观 地 把 一 些 简单 递归 程序 转变 成 迭代 程序 而 对 它们 进 
行 分 析 。 介 绍 了 更 为 复杂 的 分 治 程序 ,不 过 有 些 分 析 ( 求 解 递归 关系 ) 要 推迟 到 第 7 章 再 详细 
讨论 。 

第 3 章 包括 表 、 栈 和 队列 。 重 点 放 在 使 用 ADT 对 这 些 数据 结构 编程 ,这 些 数据 结构 的 快 
速 实现 ,以 及 介绍 它们 的 某 些 用 途上 。 课 文中 几乎 没有 什么 程序 (只 有 些 例 程 ), 而 程序 设计 作 
业 的 许多 思想 基本 上 体现 在 练习 之 中 。 

第 4 章 讨论 树 , 重 点 在 查找 树 , 包 括 外 部 查找 树 (B- 树 )。UNIX 文件 系统 和 表达 式 树 是 作 
为 例子 来 介绍 的 。AVL 树 和 伸展 树 只 作 了 介绍 而 没有 分 析 。 程 序 写 出 75% ,其 余部 分 留 给 
学 生 完成 。 查 找 树 的 实现 细节 见 第 12 章 。 树 的 另外 一 些 内 容 ,如 文件 压缩 和 博弈 树 ,延迟 到 
第 10 章 讨 论 。 外 部 媒体 上 的 数据 结构 作为 几 章 中 的 最 后 论题 来 讨论 。 

第 5 章 是 相对 较 短 的 一 章 , 主 要 讨论 散 列 表 。 这 里 进行 了 某 些 分 析 ,本章 末尾 讨论 了 可 扩 
散 列 。 

第 6 章 是 关于 优先 队列 的 。 二 义 堆 也 在 这 里 讲授 ,还 有 些 附加 的 材料 论述 优先 队列 某 些 
理论 上 有 趣 的 实现 方法 。 斐 波 那 契 堆 在 第 11 章 讨论 ,配对 堆 在 第 12 章 讨论 。 

第 7 章 讨论 排序 。 它 特别 关注 编程 细节 和 分 析 。 讨 论 并 比较 所 有 通用 的 排序 算法 。 对 以 
下 四 种 算法 详细 地 进行 了 分 析 : 插 入 排序 \ 希 尔 排序 \ 堆 排序 以 及 快速 排序 。 堆 排序 平均 情形 
运行 时 间 的 分 析 对 于 这 一 版 来 说 是 新 的 内 容 。 本 章 末 尾 讨 论 了 外 部 排序 。 

第 8 章 讨 论 不 相交 集 算法 并 证 明 其 运行 时 间 。 这 是 短 且 特 殊 的 一 章 , 如 果 不 讨论 Kruskal 
算法 则 该 章 可 跳 过 。 

第 9 章 讲授 图 论 算法 。 图 论 算法 的 重要 性 不 仅 因为 它们 在 实践 中 经 常用 到 ,而 且 还 因为 
它们 的 运行 时 间 强 烈 地 依赖 于 数据 结构 的 恰当 使 用 。 实 际 上 ,所 有 标准 算法 都 是 和 相应 的 数 
据 结构 、 伪 代码 以 及 运行 时 间 的 分 析 一 起 介绍 的 。 为 把 这 些 问题 放 进 一 本 适当 的 教材 中 ,我们 
对 复杂 性 理论 (包括 NP- 完 全 性 和 不 可 判定 性 ) 进 行 了 简短 的 讨论 。 

第 10 章 通过 考查 一 般 的 问题 求解 技巧 讨论 算法 设计 。 这 一 章 添加 了 大 量 的 实例 。 这 里 
及 后 面 各 章 使 用 的 伪 代码 使 得 学 生 更 好 地 理解 例子 ,而 避免 被 实现 的 细节 所 朵 扰 。 

第 11 章 处 理 捧 还 分 析 。 对 来 自 第 4 章 到 第 6 章 的 三 种 数据 结构 以 及 本 章 介 绍 的 斐 波 那 
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第 12 章 是 这 一 版 新 加 的 一 章 , 讨 论 查 找 树 算法 、k-d 树 和 配对 堆 。 不 同 于 其 他 各 章 , 本 章 
给 出 了 查找 树 和 配对 堆 完 全 的 仔细 的 实现 。 材 料 的 安排 使 得 教师 可 以 把 一 些 内 容纳 入 到 其 他 
各 章 的 讨论 之 中 。 例 如 ,第 12 章 中 的 自 项 向 下 红 黑 树 可 以 在 (第 4 章 的 )AVL 树 下 讨论 。 

第 1 章 到 第 9 章 为 大 多 数 的 一 学 期 数据 结构 课程 提供 了 足够 的 材料 。 如 果 时 间 允 许 , 那 
么 第 10 章 也 可 以 包括 进来 。 研 究 生 的 算法 分 析 课 程 可 以 使 用 第 7 章 到 第 11 章 的 内 容 。 第 
11 章 所 分 析 的 高 级 数据 结构 可 以 容易 地 在 前 面 各 章 中 查 到 。 第 9 章 中 对 NP- 完 全 性 的 讨论 
对 于 这 门 课 来 说 太 过 简要 ,Garey 和 Johnson 的 论 NP- 完 全 性 的 书 (有 张 立 昂 等 翻译 的 中 文 译 
本 :计算 机 和 难 解 性 ,科学 出 版 社 ,1987 一 一 译 者 注 ) 可 以 补充 本 书 的 不 足 。 


练习 


在 每 章 末尾 提供 的 练习 与 书 中 讲授 的 内 容 顺序 相 匹配 。 最 后 的 一 些 练习 是 针对 整个 一 章 
而 不 是 特定 的 某 一 节 。 难 做 的 练习 标 以 一 个 星 号 ,更 难 的 练习 标 有 两 个 星 号 。 
教师 可 从 Addison-Wesley 出 版 公司 得 到 包含 几乎 所 有 练习 答案 的 解 题 指 南 。 


参考 文献 


参考 文献 位 于 每 章 的 最 后 。 一 般 说 来 ,这 些 参 考 文献 或 者 是 历史 性 的 ,代表 着 书 中 材料 的 
原始 来 源 ,或 者 阐述 对 书 中 给 出 的 结果 的 扩展 和 改进 。 有 些 文献 论述 了 一 些 练习 的 解法 。 


代码 的 获得 

本 书 中 的 程序 代码 通过 匿名 ftp 可 在 aw. com 网 站 得 到 。 这 个 网 站 也 可 以 通过 World 
Wide Web 来 访问 ;其 URL Jy http: //www. aw. com/cseng/( 从 此 处 继续 链接 )。 该 资料 的 准 
确 位 置 可 能 变化 。 
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第 1 章 引 论 


在 这 一 章 , 我 们 阐述 本 书 的 目的 和 目标 并 简要 复习 离散 数学 以 及 程序 设计 的 一 些 概念 。 
我 们 将 要 : 
， 看 到 程序 在 较 大 输入 情况 下 的 运行 性 能 与 在 适量 输入 情况 下 的 运行 性 能 具有 同等 重 
要 性 。 
， 总 结 本 书 其 余部 分 所 需要 的 基本 的 数学 基础 。 
* 简要 复习 递归 。 


1.1 本 书 讨论 的 内 容 


设 有 一 组 N 个 数 而 要 确定 其 中 第 上 个 最 大 者 。 我 们 称 之 为 选择 问题 (selection problem), 
大 多 数学 习 过 一 两 门 程序 设计 课程 的 学 生 写 一 个 解决 这 种 问题 的 程序 不 会 有 什么 困难 。* 显 
而 易 见 的 ”解决 方法 有 很 多 。 

该 问题 的 一 种 解法 就 是 将 这 N 个 数 读 进 一 个 数组 中 , 再 通过 某 种 简单 的 算法 ,比如 冒 泡 
排序 法 ， 以 递减 顺序 将 数组 排序 , 然后 返回 位 置 上 的 元 素 。 

稍微 好 一 点 的 算法 可 以 先 把 前 个 元 素 读 人 数组 并 (以 递减 的 顺序 ) 对 其 排序 。 接 着 ， 将 
剩 下 的 元 素 再 逐个 读 人 。 当 新 元 素 被 读 到 时 ,如果 它 小 于 数组 中 的 第 k 个 元 素 则 忽略 ,否则 
就 将 其 放 到 数组 中 正确 的 位 置 上 , 同时 将 数组 中 的 一 个 元 素 挤 出 数组 。 当 算法 终止 时 , 位 于 
第 个 位 置 上 的 元 素 作为 答案 返回 。 

这 两 种 算法 编码 都 很 简单 ,建议 读者 试 一 试 。 此 时 我 们 自然 要 问 :哪个 算法 更 好 ? 哪个 算 
法 更 重要 ? 还 是 两 个 算法 都 足够 好 ? 使 用 含有 一 百 万 个 元 素 的 随机 文件 , 在 =500 000 的 条 
件 下 进行 模拟 发 现 , 两 个 算法 在 合理 的 时 间 量 内 均 不 能 结束 ; 每 种 算法 都 需要 计算 机 处 理 若 
干 天 才能 算 完 (虽然 最 后 还 是 给 出 了 正确 的 答案 )。 在 第 7 章 将 讨论 另 一 种 算法 , 该 算法 将 在 
一 秒 钟 左 右 给 出 问题 的 解 。 因 此 ,虽然 我 们 提出 的 两 个 算法 都 能 算出 结果 , 但 是 它们 不 能 被 
认为 是 好 的 算法 , 因为 对 于 第 三 种 算法 在 合理 的 时 间 内 能 够 处 理 的 输入 数据 量 而 言 ,这 两 种 
算法 是 完全 不 切实 际 的 。 

第 二 个 问题 是 解决 一 个 流行 的 字谜 。 输 入 是 由 一 些 字母 和 单 
词 的 二 维 数组 组 成 。 目 标 是 要 找 出 字谜 中 的 单词 , 这 些 单词 可 能 
是 水 平 、 垂 直 或 沿 对 角 线 以 任何 方向 放置 的 。 作 为 例子 , 图 1-1 
所 示 的 字谜 由 单词 this、two、fat 和 that 组 成 。 单 词 chis 从 第 一 
行 第 一 列 的 位 置 即 (1, 1) 处 开始 并 延伸 至 (1, 4); 单词 two 从 (1， 
1) 到 (3, 1); fat 从 (4, 1) 到 (2, 3); 而 that 则 从 (4, 4) 到 (1, 1)。 

现在 至 少 有 两 种 直观 的 算法 来 求解 这 个 问题 。 对 单词 表 中 的 每 个 单词 , 我 们 检查 每 一 个 
有 序 三 元 组 ( 行 , 列 , 方向 ), 验证 是 否 有 单词 存在 。 这 需要 大 量 嵌 套 的 for 循环 , 但 它 基本 上 
是 直观 的 算法 。 

也 可 以 这 样 ， 对 于 每 一 个 尚未 进行 到 字谜 最 后 的 有 序 四 元 组 ( 行 , 列 , 方向 , 字符 数 ) 我 
们 可 以 测试 所 指 的 单词 是 否 在 单词 表 中 。 这 也 导致 使 用 大 量 嵌 套 的 for 循 环 。 如 果 在 任意 单 





图 1-1 字谜 示例 
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词 中 的 最 大 字符 数 已 知 , 那么 该 算法 有 可 能 节省 一 些 时 间 。 

上 述 两 种 方法 相对 来 说 都 不 难 编码 并 可 求解 通常 发 表 于 杂志 上 的 许多 现实 的 字谜 游戏 。 
这 些 字谜 通常 有 16 行 16 列 以 及 40 个 左右 的 单词 。 然 而 , 假设 我 们 把 字谜 变 成 为 只 给 出 谜 板 
(puzzle board) 而 单词 表 基本 上 是 一 本 英语 词典 , 则 上 面 提出 的 两 种 解法 需要 相当 可 观 的 时 间 
来 解决 这 个 问题 , 故 这 两 种 方法 都 是 不 可 接受 的 。 不 过 , 这 样 的 问题 还 是 有 可 能 在 数秒 内 解 
决 的 , 即使 单词 表 很 大 也 可 以 。 

在 许多 问题 当中 , 一 个 重要 的 观念 是 : 写 出 一 个 可 以 工作 的 程序 并 不 够 。 如 果 这 个 程序 
在 巨大 的 数据 集 上 运行 , 那么 运行 时 间 就 变 成 了 重要 的 问题 。 我 们 将 在 本 书 中 看 到 对 于 大 量 
的 输入 , 如 何 估计 程序 的 运行 时 间 , 尤其 是 如 何在 尚未 具体 编码 的 情况 下 比较 两 个 程序 的 运 
行 时 间 。 我们 还 将 看 到 彻底 改进 程序 速度 以 及 确定 程序 瓶颈 的 方法 。 这 些 方法 将 使 我 们 能 够 
找到 需要 大 力 优化 的 那些 代码 段 。 


1.2 数学 知识 复习 


这 一 节 列 出 一 些 需要 记 住 或 是 能 够 推导 出 的 基本 公式 , 复习 基本 的 证 明 方法 。 
1.2.1 指数 





XAXB- XA+B 
x^ A-B 
X x 

x? 


(XA)B = x^^ 
XN + XN=2XNH XN 
2N+2N=2N+1 
1.2.2 对 数 

在 计算 机 科学 中 , 除非 有 特别 的 声明 , 所 有 的 对 数 都 是 以 2 为 底 的 。 

FEM X^ =B, MARY logxB =A 

由 该 定义 可 以 得 到 几 个 方便 的 等 式 。 

定理 1.1 


logaB “pS. C>0 


WER: 
4 X - logcB, Y=logcA, 以 及 Z=logAB。 此 时 由 对 数 的 定义 得 :Cx*= B,CY=A 以 及 
Az= B, 联合 这 三 个 等 式 则 产生 (CY)?= C*= B, 因此, X= YZ, 这 意味 着 Z=X/Y， 
定理 得 证 。 
定理 1.2 

logAB = logA +logB 
证 明 : 
令 X=log A, Y=log B, 以 及 Z=logAB。 此 时 由 于 假设 默认 的 底 为 2, 2*=A, 2”=B 
及 27= AB, 联合 最 后 的 三 个 等 式 则 有 292" =27 = AB. 因此 X+ Y=Z, 这 就 证 明了 该 
定理 。 
其 他 一 些 有 用 的 公式 如 下 , 它们 都 能 够 用 类 似 的 方法 推导 。 
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logA/B = logA - logB 

log( AB) = B log A 

logX < X( 对 所 有 的 X20.) 

log 1=0, log 2=1, log 1024=10, log 1048 576 =20. 





1.2.3 级 数 
最 容易 记忆 的 公式 是 

S» = 281-1 
名 

和 
WS aiu AN 1 
2,4 = A-I 

在 第 二 个 公式 中 , 如 果 0<A<1, 则 
Na) 


当 N 趋 于 co 时 该 和 趋向 于 1/(1 A), 这 些 公式 是 “几何 级 数 ” 公式 
我 们 可 以 用 下 面 的 方法 推导 关于 977 AO < A < 1) 的 公式 。 令 S 表示 和 。 此 时 
S-I*A* A + A? + A’ + AS e 





于 是 

AS = A + A! + A? + A* e AS eee 
如 果 我 们 将 这 两 个 等 式 相 减 (这 种 运算 只 能 对 收敛 级 数 进行 ), 等 号 右边 所 有 的 项 相 消 ， 只 留 
Fi: 





S-AS-1 
这 就 是 说 
s= ob 
SI 
可 以 用 相同 的 方法 计算 了 i/2'， 它 是 一 个 经 常 出 现 的 和 。 我 们 写成 
S = 2 + å + = + 2 
用 2 乘 之 得 到 
as=1+34+3+4+3+5 te 
将 这 两 个 方程 相 减 得 到 
S=1+ 权 + 击 + 二 + 下 + 省 + 
因此 ，S=2。 


分 析 中 另 一 种 常用 类 型 的 级 数 是 算术 级 数 。 任何 这 样 的 级 数 都 可 以 通过 基本 公式 计算 其 值 。 
N(N +1) _ N? 
21 4 2 


例如 , 为 求 出 和 2-5: 85 € GR - D, 将 其 改写 为 3(1+2+3+.…+k)-(1+1+1 
+…+1), 显然 , 它 就 是 34(&+ 1)/2- ko 另 一 种 记忆 的 方法 则 是 将 第 一 项 与 最 后 一 项 相 加 
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(MA 3k +1), 第 二 项 与 倒数 第 二 项 相 加 (和 也 是 3k +1), 等 等 。 由 于 有 k2 个 这 样 的 数 对 ， 
因此 总 和 就 是 &(3& + 1)/2, 这 与 前 面 的 答案 相同 。 
现在 介绍 下 面 两 个 公式 , 它们 就 没有 那么 常见 了 。 
» = NIN+DGN+D JN 


m 





x 
S5 au, LIC! 
b ad metere 
a +1I 4 天 -1 


Y R= -1 时 , 后 一 个 的 公式 不 成 立 。 此 时 我 们 需要 下 面 的 公式 , 这 个 公式 在 计算 机 科学 
中 的 使 用 要 远 比 在 数学 其 他 科目 中 使 用 得 多 。 数 Hy 叫做 调和 数 , 其 和 叫做 调和 和 。 下 面 近 
似 式 中 的 误差 趋向 于 y<*0.57721566, 这 个 值 称 为 欧 拉 常 数 (Euler s constant)。 


N 


Hy = 3l =~ log. N 
以 下 两 个 公式 只 不 过 是 一 般 的 代数 运算 。 
3 AN) = NECN) 


N N ot 
Sro= DAD- VY /0 
tony A a 

124 模 运算 

WENER A-B, 那么 我 们 就 说 A 与 已 模 N 同 余 (congrmuent), 记 为 A=B(mod N)。 直 
观 地 看 , 这 意味 着 无 论 A 还 是 B 被 N ER, 所 得 余数 都 是 相同 的 。 于 是 , 81=61=1(mod 10)。 
如 同等 号 的 情形 一 样 , 若 A 三 B(mod N), 则 A+ C=B + C(mod N) 以 及 AD 三 BD(mod N)。 

有 许多 的 定理 适用 模 运算 , 其 中 有 一 些 特别 要 用 到 数论 来 证 明 。 我 们 将 谨慎 地 使 用 模 运 

US] 算 , 这 样 ,前 面 的 一 些 定 理 也 就 足够 了 。 

1.2.5 证明 方法 

证 明 数 据 结构 分 析 中 的 结论 的 两 个 最 常用 的 方法 是 归纳 法 和 反 证 法 (偶尔 也 被 迫 用 到 只 
有 教授 们 才 使 用 的 证 明 方法 )。 证 明 一 个 定理 不 成 立 的 最 好 的 方法 是 举 出 一 个 反例 。 
归纳 法 证 明 

由 归纳 法 进行 的 证 明 有 两 个 标准 的 部 分 。 第 一 步 是 证 明基 准 情形 (base case), 就 是 确定 
定理 对 于 某 个 ( 某 些 ) 小 的 (通常 是 退化 的 ) 值 的 正确 性 ; 这 一 步 几 乎 总 是 很 简单 的 。 接着, 进 
行 归纳 假设 (inductive hypothesis) » 一般 说 来 ， 这 意味 着 假设 定理 对 直到 某 个 有 限 数 上 的 所 有 
的 情况 都 是 成 立 的 。 然后 使 用 这 个 假设 证 明定 理 对 下 一 个 值 (通常 是 上 + 1) 也 是 成 立 的 。 至 此 
定理 得 证 (在 上 是 有 限 的 情形 下 )。 

作为 一 个 例子 , RAVE ABRAM, Fo=1, Fic d, F2=2, F3=3, Fy=5, ee 
F,=F,-. +Fi-z, M i21, ME Fi<(5/3)'。 (有 些 定义 规定 Fo= 0, 这 只 不 过 将 该 级 数 做 了 
一 次 平移 ) 为 了 证 明 这 个 不 等 式 ， 我 们 首先 验证 定理 对 平凡 的 情形 成 立 。 容 易 验证 Fi= 1 < 
5/3 R Fy=2< 25/9; 这 就 证 明了 基准 情形 。 假设 定理 对 于 i=1, 2, -k 成 立 ; 这 就 是 归 
纳 假设 。 为 了 证 明定 理 , 我 们 须要 证 明 +1<(5/3)*+1。 根据 定义 我 们 有 

Fyni = Fy + Fia 
将 归纳 假设 用 于 等 号 右边 , 我 们 得 到 
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Frr< (5/3) + (5/3)! 
< (3/5) 6/3)! + (3/5) G/3)*! 
< (3/5)(5/3)*! + (9/25) (5/3)! 
化 简 后 为 
Fisi < (3/5 + 925)(5/3)*! 
< (24725)(5/3)**! 
« (5/3)! 
这 就 证 明了 这 个 定理 ， 
在 第 二 个 例子 中 , 我 们 证 明 下 面 的 定理 
定理 1.3 
如 果 NT WS) 2 = NOCEDON SL DON TD 
a 
证 明 ; 用 数学 归纳 法 证 明 - 对 于 基准 情形 ,容易 看 到 , 定理 当 1 的 时 候 成 立 。 对 于 归 LO) 
纳 假设 . RANEE ISSN mr. 我 们 将 在 该 假设 下 证 明定 理 对 于 N + 1 也 是 成 立 的 。 
我 们 有 





+(N+1) 
应 用 归纳 假设 我 们 得 到 


"m : 
S aa NOCCDGN D , ay 
int 
=(N+ 1)[NONs Dine] 
NEED 


LONE DOS + 2)QN + 3) 
6 








因此 
2 ON E DION t 0) € I[ON 0D € 1] 
6 
定理 得 证 。 
通过 反例 证 明 


公式 Fy SPAR. 证明 这 个 结论 的 最 容易 的 方法 就 是 计算 Fu= 144>11。 
反 证 法 证 明 

反 证 法 证 明 是 通过 假设 定理 不 成 立 , 然后 证 明 该 假设 导致 菜 个 已 知 的 性 质 不 成 立 , 从 而 
说 明 原 假设 是 错误 的 。 一 个 经 典 的 例子 是 证 明 存在 无 穷 多 个 素数 。 为 了 证 明 这 个 结论 , RN 
假设 定理 不 成 立 。 FE, 存在 菜 个 最 大 的 素数 Peo S Pis Phu P, 是 依 序 排列 的 所 有 素 
数 并 考虑 

N = P,P2P3"P; +1 

显然 , N 是 比 P 大 的 数 , 根据 假设 N 不 是 素数 。 可 是 , Pi Poer Pe 都 不 能 整除 N, 因为 
除 得 的 结果 总 有 余数 1。 这 就 产生 一 个 矛盾 , 因为 每 一 个 整数 或 者 是 素数 ， 或 者 是 素数 的 乘 
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[7] 积 。 因此, P, 是 最 大 素数 的 原 假设 是 不 成 立 的 , 这 正 意味 着 定理 成 立 。 


1.3 递归 简 论 


我 们 熟悉 的 大 多 数 数学 函数 是 由 一 个 简单 公式 描述 的 。 例如 , 我 们 可 以 利用 公式 
C =5(F -32)9 
把 华氏 温度 转换 成 摄氏 温度 。 有 了 这 个 公式 , 写 一 个 C 函数 就 太 简单 了 。 除去 程序 中 的 说 明 
和 大 括号 外 , 将 一 行 公式 翻译 成 一 行 C 程序 。 

有 时 候 数 学 函数 以 不 太 标准 的 形式 来 定义 。 作 为 一 个 例子 , 我 们 可 以 在 非 负 整 数 集 上 定 
义 一 个 函数 F, 它 满足 F(0)=0 且 F(X)=2F(X-1)+X2z。 从 这 个 定义 我 们 看 到 F(1) = 1, 
F(2)=6, F(3)=21, 以 及 下 (4) = 58。 当 一 个 函数 用 它 自己 来 定义 时 就 称 为 是 递归 (recur- 
sive) 的 。C 人 允许 函数 是 递归 的 。S 但 重要 的 是 要 记 住 , C 提供 的 仅仅 是 遵循 递归 思想 的 一 种 企 
图 。 不 是 所 有 的 数学 递归 函数 都 能 有 效 地 (或 正确 地 ) 由 C 的 递归 模拟 来 实现 。 我 们 上 面 例子 
说 的 是 递归 函数 F 应 该 只 用 几 行 就 能 表示 出 来 , 正如 非 递归 函数 一 样 。 图 1-2 指出 了 函数 F 
的 递归 实现 。 





int 
FC int X) 


{ 
je la/ if( X == 0 ) 
Jan return 0; 
else 
Ary return 2 *F(X-1)+X*X; 
) 











图 1-2 一 个 递归 函数 


第 一 行 和 第 二 行 处 理 基准 情况 (base case), 即 此 时 函数 的 值 可 以 直接 算出 而 不 用 求助 递 
Ho 正如 “F(X)=2F(X - 1) + X?" 车 没有 “F(0) =0” 这 个 条 件 在 数学 上 没有 意义 一 样 ,，C 
的 递归 函数 若 无 基 准 情况 , 也 是 毫 无 意义 的 。 第 三 行 执行 的 是 递归 调用 。 

关于 递归 , 有 几 个 重要 并 且 可 能 会 被 搞 混 的 地 方 。 一 个 常见 的 问题 是 : 它 是 否 就 是 循环 
3E 4 (circular logic)? 答案 是 :虽然 我 们 定义 一 个 函数 用 的 是 这 个 函数 本 身 , 但 是 我 们 并 没有 
用 函数 本 身 定义 该 函数 的 一 个 特定 的 实例 。 换 句 话说 , 通过 使 用 (5) 来 得 到 F(5) 的 值 才 是 
循环 的 。 通 过 使 用 F(4) 得 到 F(5) 的 值 不 是 循环 的 , 除非 F(4) 的 求 值 又 要 用 到 对 F(5) 的 计 
算 。 两 个 最 重要 的 问题 恐怕 就 是 “如 何 ” 和 “为 什么 ”的 问题 了 。 这 将 在 第 3 章 正 式 解决 。 这 
里 , 我 们 将 给 出 一 个 不 完全 的 描述 。 

实际 上 , 递归 调用 在 处 理 上 与 其 他 的 调用 没有 什么 不 同 。 如 果 以 参数 4 的 值 调用 函数 F, 
那么 程序 的 第 三 行 要 求 计算 2F(3) +4*4。 这 样 , 就 要 执行 一 个 计算 F(3) 的 调用 , 而 这 又 导 
致 计算 2F(2) + 3* 3。 因 此 , 又 要 执行 另 一 个 计算 F(2) 的 调用 , 而 这 意味 着 必须 求 出 2F(1) 
+2x 2 的 值 。 为 此 , 通过 计算 2F(0) + 1* 1 而 得 到 F(1)。 此 时 ，F(0) 必 须 被 赋值 。 由 于 这 
属于 基准 情况 , 因此 我 们 事先 知道 F(0) = 0。 从 而 F(1) 的 计算 得 以 完成 , 其 结果 为 1。 然 后 ， 
F(2)、F(3) 以 及 最 后 F(4) 的 值 都 能 够 计算 出 来 。 跟踪 挂 起 的 函数 调用 (这 些 调用 已 经 开始 
但 是 正 等 待 着 递归 调用 来 完成 ) 以 及 它们 中 变量 的 记录 工作 都 是 由 计算 机 自动 完成 的 。 然 而 ， 


后” 对 于 数值 计算 使 用 递归 通常 不 是 个 好 主意 。 我 们 只 在 解释 基本 论点 时 这 公 做 。 
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重要 的 问题 在 于 , 递归 调用 将 反复 进行 直到 基准 情形 出 现 。 例如 , 计算 FC 1) 的 值 将 导致 调 
用 F(-2)、F(-3) 等 等 。 由 于 这 将 不 可 能 出 现 基准 情形 , 因此 程序 也 就 不 可 能 算出 答案 。 偶 
尔 还 可 能 发 生 更 加 微妙 的 错误 , 我 们 将 其 展示 在 图 1-3 中 。 图 1-3 中 程序 的 这 种 错误 是 将 第 
三 行 上 的 Bad(1) 定 义 为 Bad(1)。 显 然 , 实际 上 Bad(1) 究 竟 是 多 少 , 这 个 定义 给 不 出 任何 线 
索 。 因 此 , 计算 机 将 会 反复 调用 Bad(1) 以 期 解 出 它 的 值 。 最 后 , 计算 机 短 记 系统 将 占 满 空间 ， 
程序 崩溃 。 一 般 说 来 , 我 们 会 说 该 函数 对 一 个 特殊 情形 无 效 ， 而 在 其 他 情形 下 是 正确 的 。 但 
此 处 这 么 说 则 不 正确 , 因为 Bad(2) 调 用 Bad(1)。 因此 , Bad(2) 也 不 能 求 出 值 来 。 不 仅 如 此 ， 
Bad(3)、Bad(4) 、 和 Bad(5) 都 要 调用 Bad(2), Bad(2) 算 不 出 值 , 它们 的 值 也 就 不 能 求 出 。 事 
KE, 除了 0 之 外 , 这 个 程序 对 任何 的 N 都 不 能 一 步 算出 结果 。 对 于 递归 函数 , 不 存在 像 
“特殊 情形 ”这 样 的 情况 。 

上 面 的 讨论 导致 递归 的 前 两 个 基本 法 则 : 








int 
Bad( unsigned int N ) 


{ 
fray if( N == 0) 
ay return 0; 
else 
fti , return Bad N/ 34 1) « N - 1; 





图 1-3 无 终止 递归 程序 


1. 基准 情形 (base case) - 你 必须 总 此 有 某 些 基准 的 情形 , 它们 不 用 递归 就 能 求解 。 

2. 不 断 推进 (making progress)。 对 于 那些 需要 递归 求解 的 情形 , 递归 调用 必须 总 能 够 朝 
着 产生 基准 情形 的 方向 推进 。 

在 本 书 中 我 们 将 用 递归 解决 一 些 问题 。 作为 非 数学 应 用 的 一 个 例子 ,考虑 一 本 大 词典 。 
词典 中 的 词 都 是 用 其 他 的 词 定义 的 。 当 我 们 查 一 个 单词 的 时 候 , 我 们 不 理解 对 该 词 的 解释 ， 
于 是 我 们 不 得 不 再 查 出 现在 解释 中 的 一 些 词 。 而 对 这 些 词 解释 中 的 某 些 词 我 们 又 不 理解 , A 
此 我 们 还 要 继续 这 种 搜索 。 因 为 词典 是 有 限 的 , 所 以 实际 上 ,要 么 我 们 最 终 查 到 一 处 , 明白 此 
处 解释 中 所 有 的 单词 (从 而 理解 这 里 的 解释 , 并 按照 查找 的 路 径 回 头 理解 其 余 的 解释 ); 要 么 
我 们 发 现 这 些 解释 形成 一 个 循环 , 无 法 明白 其 中 的 意思 , 或 者 在 解释 中 需要 我 们 理解 的 某 个 
单词 不 在 这 本 词典 里 。 

我 们 理解 这 些 单词 的 递归 策略 如 下 :如 果 我 们 知道 一 个 单词 的 含义 ,那么 就 算 我 们 成 功 ; 
否则 , 我们 就 在 词典 里 查找 这 个 单词 。 如 果 我 们 理解 对 该 词 解释 中 的 所 有 的 单词 , 那么 又 算 
我 们 成 功 ; 否则 , 递归 地 查找 一 些 我 们 不 认识 的 单词 来 “算出 ” 对 该 单词 解释 的 含义 。 如 果 词 
典 编纂 得 完美 无 暇 , 那么 这 个 过 程 就 能 够 终止 ; 如 果 其 中 一 个 单词 没有 查 到 或 是 形成 循环 定 
义 (解释 ), 那么 这 个 过 程 则 循环 不 定 。 
打印 输出 数 

设 我 们 有 一 个 正 整数 N 并 希望 把 它 打印 出 来 - 我 们 的 例 程 的 名 字 为 PrintOut(N)。 假设 
仅 有 的 现成 1/0 例 程 将 只 处 理 单个 数字 并 将 其 输出 到 终端 。 我 们 将 这 个 例 程 命名 为 
PrintDigits 例如 ，*“PrintDigir(4)” 将 输出 一 个 “4” 到 终端。 

递归 对 该 问题 提供 一 个 非常 简洁 的 解 . 为 打印 “76234”, 我 们 需要 首先 打印 出 “7623”， 然 


[9] 
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后 再 打印 出 “4”。 第 二 步 用 语句 "PrintDigit(N& 10)" 很 容易 完成 , 但 是 第 一 步 却 不 比 原 问题 
简单 多 少 。 它 实际 上 是 同一 个 问题 , 因此 我 们 可 以 用 语句 “Printout(N/10)” 递 归 地 解决 它 。 

这 告诉 我 们 如 何 去 解 决 一 般 的 问题 , 不 过 我 们 仍然 需要 确认 程序 不 是 循环 不 定 的 。 由 于 
我 们 尚未 定义 一 个 基准 情况 , 因此 很 清楚 , 我 们 仍然 还 有 些 事情 要 做 。 如 果 0<N<10, 那么 
我 们 的 基准 情形 就 是 “PrintDigit(N)”。 现在 ,“Printout(N)” 已 对 每 一 个 从 0 到 9 的 正 整 
数 做 出 定义 ,而 更 大 的 正 整数 则 通过 较 小 的 正 整数 定义 。 因 此 , 不 存在 循环 定义 。 整 个 过 程 2 
如 图 1-4 所 示 。 





void 
PrintOut( unsigned int N ) /* Print nonnegative N */ 


ifCN >= 10 ) 
PrintOut( N / 10 ); 
PrintDigit( N X 10); 





图 1-4 ”打印 整数 的 递归 例 程 

我 们 没有 努力 去 高 效 地 做 这 件 事 。 我们 本 可 以 避免 使 用 mod 操作 ( 它 的 耗费 是 很 大 的 )， 
因为 N%10= N -LN/10] « 10,9 
递归 和 归纳 

我 们 将 使 用 归纳 法 对 上 述 数字 递归 打印 程序 给 予 更 严格 的 证 明 。 

定理 1.4 

对 于 N>>0, 数 的 递归 打印 算法 是 正确 的 。 

证 明 ( 根 据 N 所 含 数 字 的 个 数 , 利用 归纳 法 证 明 ) 

首先 , 如 果 N 只 有 一 位 数字 , 那么 程序 显然 是 正确 的 , 因为 它 只 是 调用 一 次 PrintDigit. 
然后 , 设 PrintOut 对 所 有 位 或 位 数 更 少 的 数 均 能 正常 工作 。k + 1 位 的 数字 可 以 通过 其 前 
位 数字 后 跟 一 位 最 低位 数字 来 表示 。 前 & 位 数字 形成 的 数 恰好 是 LN 710 ], 归纳 假设 它 能 够 
被 正确 地 打印 出 来 ,而 最 后 的 一 位 数字 是 N mod 10, 因此 该 程序 能 够 正确 打印 出 任意 上 + 1 
位 数 。 于 是 ,根据 归纳 法 , 所 有 的 数 都 能 被 正确 地 打印 出 来 。 

这 个 证 明 看 起 来 可 能 有 些 奇怪 , 实际 上 相当 于 是 算法 的 描述 。 它 阐述 的 是 在 设计 递归 程 
序 时 ,同一 问题 的 所 有 较 小 实例 均 可 以 假设 运行 正确 , 递归 程序 只 需要 把 这 些 较 小 问题 的 解 
(它们 通过 递归 奇迹 般 地 得 到 ) 结 合 起 来 而 形成 现行 问题 的 解 。 其 数学 根据 则 是 归纳 法 。 我 们 
给 出 递归 的 第 三 个 法 则 : 

3. 设计 法 则 (design rule)。 假 设 所 有 的 递归 调用 都 能 运行 。 这 是 一 条 重要 的 法 则 , 因为 它 
意味 着 , 当 设计 递归 程序 时 一 般 没 有 必要 知道 簿 记 管理 的 细节 , 不 必 试图 追踪 大 量 的 递归 调 
JB. 追踪 实际 的 递归 调用 序列 常常 是 非常 困难 的 。 当 然 , 在 许多 情况 下 , 这 正体 现 了 使 用 弟 
归 的 好 处 , 因为 计算 机 能 够 算出 复杂 的 细节 。 

递归 的 主要 问题 是 隐 含 的 夭 记 开销 。 虽 然 这 些 开 销 几乎 总 是 合理 的 (因为 递归 程序 不 仅 
简化 了 算法 设计 ,而且 也 有 助 于 给 出 更 加 简洁 的 代码 ), 但 是 递归 绝 不 应 该 作为 简单 for 循环 
的 代替 物 。 我 们 将 在 3.3 节 更 仔细 地 讨论 递归 涉及 的 系统 开销 。 


〇 ”过 程 (procedure) 即 返回 值 为 void 型 的 函数 。 
O LXJ 意 为 小 于 或 等 于 X 的 最 大 整数 。 
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当 编写 递归 例 程 的 时 候 , 关键 是 要 牢记 递归 的 四 条 基本 法 则 : 

1. 基准 情形 。 必 须 总 有 某 些 基准 情形 , 它 无 须 递归 就 能 解 出 。 

2. 不 断 推进 。 对 于 那些 需要 递归 求解 的 情形 , 每 一 次 递归 调用 都 必须 要 使 求解 状况 朝 接 
近 基 准 情形 的 方向 推进 。 

3. 设计 法 则 。 假设 所 有 的 递归 调用 都 能 运行 

4. 合成 效益 法 则 (compound interest rule), 在 求解 一 个 问题 的 同一 实例 时 , 切 勿 在 不 同 
的 递归 调用 中 做 重复 性 的 工作 。 

第 四 条 法 的 正确 性 则 将 在 后 面 的 章节 给 予 证 明 。 使 用 递归 来 计算 诸如 斐 波 那 契 数 之 类 简 
单数 学 函数 的 值 的 想法 一 般 来 说 不 是 一 个 好 主意 , 其 道理 正 是 根据 第 四 条 法 则 。 只 要 在 头脑 
中 记 住 这 些 法 则 , 递归 程序 设计 就 应 该 是 简单 明了 的 。 


总 结 


这 一 章 为 本 书 其 余部 分 建立 一 个 舞台 。 对 于 面临 大 量 输入 的 算法 ， 它 所 花费 的 时 间 是 - 
个 判别 其 好 坏 的 重要 的 标准 。( 当然 正确 性 是 最 重要 的 。) 速 度 是 相对 的 。 对 于 一 个 问题 在 一 
台 机 器 上 是 快速 的 算法 有 可 能 对 另 一 个 问题 或 在 不 同 的 机 器 上 就 变 成 了 慢 的 。 我 们 将 在 下 一 
章 讲 述 这 些 问题 , 并 将 用 这 里 讨论 的 数学 概念 建立 一 个 正式 的 模型 。 


练习 


1.1 编写 一 个 程序 解决 选择 问题 。 令 = N Z2. 画 出 表格 显示 你 的 程序 对 于 N 为 不 同 值 的 
运行 时 间 。 
1.2 ”编写 一 个 程序 求解 字谜 游戏 问题 。 
1.3 只 使 用 处 理 1/0 的 PrintDigit 函数 , 编写 一 个 过 程 以 输出 任意 实数 (可 以 是 负 的 )。 
1.4 CHO 
t include filename 
的 语句 , 它 读 入 文件 filename 并 将 其 插入 到 include 语句 处 。include 18/5] 8f LURE; JJ ii 
说 , 文件 filename 本 身 还 可 以 包含 include 语句 , 但 是 显然 一 个 文件 在 任何 链接 中 都 不 能 包 
含 它 自己 。 编 写 一 个 程序 , 使 它 读 入 被 include 语句 修饰 的 一 个 文件 并 且 输 出 这 个 文件 。 
1.5 证 明 下 列 公式 : 
a. log X € X 对 所 有 的 X>0 成 立 。 
b. log( AP) = BlogA 
1.6 求 下 列 各 和 : 


.$1 


m4 


b; SE 
Id 
Stt 


e Uy 
mo 4 


ase 


m4 
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1.7 估计 
Aq 
delNA2) i 


«1.8 2! (mod 5) 是 多 少 ? 
1.9 令 瓦 是 在 1.2 节 中 定义 的 斐 波 那 契 数 。 证 明 下 列 各 式 : 
yee 
a. MF, = Fy -2 


b. FAN, Jtr $- (1+V5)/2 
** Cc. 给 出 Fy 准确 的 封 财 形式 的 表达 式 。 
1.10 证 明 下 列 公 式 : 


a. "oi -1)= N? 
b. See (X: 
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第 2 章 算法 分 析 


算法 (algorithm) 是 为 求解 一 个 问题 需要 遵循 的 、 被 清楚 地 指定 的 简单 指令 的 集合 。 对 于 
一 个 问题 , 一旦 给 定 某 种 算法 并 且 ( 以 某 种 方式 ) 确 定 其 是 正确 的 , 那么 重要 的 
该 算法 将 需要 多 少 诸如 时 间或 空间 等 资源 量 的 问题 。 如 果 一 个 问题 的 求解 算法 需 达 一 年 
时 间 , 那么 这 种 算法 就 很 难 能 有 什么 用 处 : 同样 , 一 个 需要 1G 字 节 内 存 的 算法 在 当前 的 大 多 
数 机 器 上 也 是 没 法 使 用 的 。 

在 这 一 章 , 我 们 将 讨论 : 

。 如 何 估计 一 个 程序 所 需要 的 时 间 

。 如 何 将 一 个 程序 的 运行 时 间 从 天 或 年 降低 到 秒 。 

* 粗心 地 使 用 递归 的 后 果 。 

。 将 一 个 数 自 怨 得 到 其 短 以 及 计算 两 个 数 的 最 大 公 因 数 的 非常 有 效 的 算法 


2.1 数学 基础 


估计 算法 资源 消耗 所 需 的 分 析 一 般 说 来 是 一 个 理论 问题 , 因此 需要 一 套 正式 的 系统 构 
架 我 们 先 从 某 些 数学 定义 开始 

全 书 将 使 用 下 列 四 个 定义 : 

定义 :如 果 存在 正常 数 c Al ny 使 得 当 NI no BE TON) Sef COND. WEK T(N)= 
O(N)) 

定义 :如 果 存 在 正常 数 c 和 wo 使 得 当 ND ny WE TON) e ON). 则 记 为 T(N)= 
A(g(N)) 

定义 : T(N)=@(h(N)) 当 日 仅 当 T(N)=O(h(ND) 有 TT(N)= 0Q(h(N))。 

XX AE TUN) S OC P(N) )EL T(N)4O(p(N)), 则 T(N)=o(p(N)) 

这 些 定义 的 目的 是 要 在 函数 间 建 立 一 种 相对 的 级 别 。 给 定 两 个 函数 , 通常 存在 一 些 点 ， 
在 这 些 点 上 一 个 函数 的 值 小 于 另 一 个 函数 的 值 , 因此 , 像 FLN)<g(N) 这 样 的 声明 是 没有 什 
A Je 于 是 , 我 们 比较 它们 的 相对 增长 率 (relative rate of growth)。 当 将 相对 增长 率 应 用 
到 算法 分 析 的 时 候 , 我 们 将 会 明白 为 什么 它 是 重要 的 度量 。 

虽然 N 较 小 时 , 1000N 要 比 N? K, 但 N? 以 更 快 的 速度 增长 , 因此 N 最 终 将 更 大 。 在 
Bn N = 1 000 是 转折 点 。 第 一 个 定义 是 说 , 最 后 总 会 存在 某 个 点 n, 从 它 以 后 

， CN) 总 是 至 少 与 TUN) PERK, 从 而 若 忽略 常数 因子 , W FON) BS TON) - HEX. 
在 我 们 的 例子 中 ， h 000N，F(N)= N2， ng = 1000 ifj c= 1. 我 们 也 可 以 让 no = 10 
而 <=100- 因此 ， 可 以 说 1000N= O( N?)(N 平方 级 )- 这 种 记 法 称 为 大 O 记 法 ， 人们 
常常 不 说 “…… 级 的 ”, 而 是 说 “大 O- o 

如 果 我 们 用 传统 的 不 等 式 来 计算 增长 率 ， 那么 第 一 个 定义 是 说 了 (NN ) 的 增长 率 小 于 等 于 
CO PON) BRB. 第 二 个 定义 T(N) = Q(g(N))( 念 成 omega” ) 是 说 TON ) 的 增长 率 大 
于 等 于 ( 宇 )g(N) 的 增长 率 - 第 三 个 定义 TCN)= 9(A(N))( 念 成 “theta”) 是 说 TON) hR 
长 率 等 于 ( = )h(N) 的 增长 率 . 最 后 一 个 定义 TC(N)=o(p(N))( 念 成 “小 0…… ”) 说 的 则 是 
















[i] 
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T(N) 的 增长 率 小 于 (< )p(NN) 的 增长 率 。 它 不 同 于 大 O, 因为 大 O 包含 增长 率 相同 这 种 可 
能 性 。 

为 了 证 明 某 个 函数 T(N) = OCF(N)), 我 们 通常 不 是 形式 地 使 用 这 些 定义 , 而 是 使 用 一 
些 已 知 的 结果 。 一 般 说 来 , 这 就 意味 着 证 明 ( 或 确定 假设 不 成 立 ) 是 非常 简单 的 计算 并 不 涉及 
微 积分 , 除非 遇 到 特殊 的 情况 (不 可 能 发 生 在 算法 分 析 中 )。 

当 我 们 说 TUN) = O(f(N)) 时 , 我 们 是 在 保证 函数 T(N) 是 在 以 不 快 于 /(N) 的 速度 增 
长 ; 因此 f(N) 是 T(N) 的 一 个 上 界 (upper bound)。 与 此 同时 , f(N) = Q(T(N)) 意 味 着 
T(N) 是 f(N) 的 一 个 下 界 (lower bound), 

作为 一 个 例子 ，N3 增长 比 N? tk, 因此 我 们 可 以 说 N? = O(N3) 或 N3=Q(N?)。f(N) 
=N? 和 g(N)=2N? 以 相同 的 速率 增长 , 从 而 f(N)=O(g(N)) 和 f/(N)=Q(g(N)) 都 是 
正确 的 。 当 两 个 函数 以 相同 的 速率 增长 时 , 是 否 需 要 使 用 记号 “@()” 表 示 可 能 依赖 于 具体 的 
上 下 文 。 直 观 地 说 , WR g(N)=2N?, 那么 g(N)= OCND, g(N)=O(N3) 和 g(N)= 
O(N?) 从 技术 上 看 都 是 成 立 的 , 但 最 后 一 个 选择 是 最 好 的 答案 。 写 法 g(N) = B(N?) 不 仅 表 
AR g(N)= O(N?) 而 且 还 表示 结果 会 尽 可 能 地 好 (严密 )。 

我 们 需要 掌握 的 重要 结论 为 : 

LI 1: 

如 果 T,(N) = OC F(N)) B. T2(N) = O(g(N)), 那么 

(a) TN) + T2(N) =max(O(f(N)), O(g(N))), 

(b) TUN) * T2(N)=OCfON) * g(N)), 

法 则 2: 

如 果 T(N) 是 一 个 上 次 多 项 式 , W T(N)=@(N*)。 

法 则 3: 

对 任意 常数 上 ，log4 N= O(N)。 它 告诉 我 们 对 数 增长 得 非常 缓慢 。 

这 些 信息 足以 按照 增长 率 对 大 部 分 常见 的 函数 进行 分 类 ( 见 
图 2-1)。 

现在 指出 几 点 注意 。 首 先 , 将 常数 或 低 阶 项 放 进 大 O 是 非常 
坏 的 习惯 。 不 要 写成 T(N)=O(2N?) 或 T(N)=O(N?+ NN)。 在 
这 两 种 情形 下 ,正确 的 形式 是 T(N) = O(N?)。 这 就 是 说 , 在 需 
要 大 O 表示 的 任何 分 析 中 , 各 种 简化 都 是 可 能 发 生 的 。 低 阶 项 一 
般 可 以 被 忽略 ,而 常数 也 可 以 弃 掉 。 此 时 , 要 求 的 精度 是 很 低 的 。 

第 二 ， 我 们 总 能 够 通过 计算 极限 lim (NN)/g(NN) 来 确定 两 个 图 2-1 典型 的 增长 率 
函数 CN RR g(N) 的 相对 增长 率 , 必要 的 时 候 可 以 使 用 洛 必 达 法 则 。9 该 极限 可 以 有 四 种 可 
能 的 值 : 

。 极限 是 0: 这 意味 着 FLN)= o(g&(N))。 

。 极限 是 c A 0: 这 意味 着 /(N)=@B(g(N))。 




















O METIRI CL" Hopital's rule) 说 的 是 , 若 lim f(N) = 9B lim (ND 7 9. 则 lim /(N)/g (N) = lim £°(N)/a° 


(ND, 而 六 CN) 和 &'(N) 分 别 是 f(N) 和 g(N) 的 导数 。 
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。 极限 是 oo :这 意味 着 g(N) = oCFCND)- 

。 极限 摆动 :二 者 无 关 ( 在 我 们 的 书 中 将 不 会 发 生 这 种 情形 )。 

使 用 这 种 方法 几乎 总 能 够 算出 相对 增长 率 。 通常 ,两 个 函数 f(N) 和 &(N) 间 的 关系 可 
以 用 简单 的 代数 方法 得 到 。 例如 , 如果 fF(N)= N logN 和 g(N)= NS, 那么 确定 A(N) 和 
&(N) 哪 个 增长 得 更 快 , 实际 上 就 是 确定 log N 和 N05 哪个 增长 更 快 。 这 与 确定 lo N 和 入 
哪个 增长 更 快 是 一 样 的 , 而 后 者 是 个 简单 的 问题 , 因为 我 们 已 经 知道 ，N 的 增长 要 快 于 logN 
的 任意 次 短 。 因此 ，g(N) 的 增长 快 于 FON) (nie 

另外 , 在 风格 上 还 应 注意 : 不 要 说 成 SCN) SO(g(N)), 因为 定义 已 经 隐 含 有 不 等 式 
T: 写成 f/(N)EO(g UN) BHR, 它 没有 意义 。 


2.2 模型 


为 了 在 正式 的 框架 中 分 析 算 法 , 我们 需要 一 个 计算 模型 。 我 们 的 模型 基本 上 是 一 台 标准 
的 计算 机 , 在 机 器 中 指令 被 顺序 地 执行 。 该 模型 有 一 个 标准 的 简单 指令 系统 , 如 加 法 、 乘 法 、 
比较 和 赋值 等 。 但 不 同 于 实际 计算 机 情况 的 是 , 模型 机 做 任 一 件 简单 的 工作 都 恰好 花费 一 个 
时 间 单元 。 为 了 合理 起 见 , 我 们 将 假设 我 们 的 模型 像 一 台 现 代 计算 机 那样 有 固定 范围 的 整数 
(比如 32 个 比特 ) 并 且 不 存在 诸如 矩阵 求 逆 或 排序 等 运算 ,它们 显然 不 能 在 一 个 时 间 单位 内 
完成 。 我 们 还 假设 模型 机 有 无 限 的 内 存 。 

显然 , 这 个 模型 有 些 缺点 。 很 明显 , 在 现实 生活 中 不 是 所 有 的 运算 都 恰好 花费 相同 的 时 
间 。 特别 地 , 在 我 们 的 模型 中 , 一 次 磁盘 读 人 记 时 同一 次 加 法 ,虽然 加 法 一 般 要 快 几 个 数量 
级 。 还 有 , 由 于 假设 有 无 限 的 存储 , 我 们 再 不 用 担心 缺 页 中 断 , 它 可 能 是 个 实际 问题 , 特别 是 
对 高 效 的 算法 。 


2.3 要 分 析 的 问题 


要 分 析 的 最 重要 的 资源 一 般 说 来 就 是 运行 时 间 。 有 几 个 因素 影响 着 程序 的 运行 时 间 。 有 
此 因素 如 所 使 用 的 编译 器 和 计算 机 显然 超出 了 任何 理论 模型 的 范畴 , 因此， 虽然 它们 是 重要 
的 , 但 是 我 们 在 这 里 还 不 能 处 理 它们 。 剩 下 的 主要 因素 则 是 所 使 用 的 算法 以 及 对 该 算法 的 
输入 。 

典型 的 情形 是 , 输入 的 大 小 是 主要 的 考虑 方面 。 我 们 定义 两 个 函数 Tae N) 和 
Tues UND. 分 别 为 输入 为 N 时 , 算法 所 花费 的 平均 运行 时 间 和 最 坏 情况 下 的 运行 时 间 。 显 
然 ,Tum(N) 近 Twos(CN)。 如 果 存 在 更 多 的 输入 , 那么 这 些 函数 可 以 有 更 多 的 变量 。 

一 般 说 来 , 若 无 相 反 的 指定 , 则 所 需要 的 量 是 最 坏 情况 下 的 运行 时 间 。 其 原因 之 一 是 它 
对 所 有 的 输入 提 供 了 一 个 界限 , 包括 特别 坏 的 输入 , 而 平均 情况 分 析 不 提供 这 样 的 界 。 另 一 
个 原因 是 平均 情况 的 界 计算 起 来 通常 要 困难 得 多 。 在 某 些 情况 下 ,“ 平 均 ” 的 定义 可 能 影响 分 
析 的 结果 。( 例 如 ,什么 是 下 述 问题 的 平均 输入 ?) 

作为 一 个 例子 , 我 们 将 在 下 一 节 考 虑 下 述 问题 : 
最 大 的 子 序列 和 问题 : 

给 定 整数 Al，A;，...，Aw( 可 能 有 负数 ), RD) Ac 的 最 大 值 (为 方便 起 见 ， 如 果 所 


有 整数 均 为 负数 , 则 最 大 子 序列 和 为 0)。 
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fj: 

输入 -2, 11, 74, 13, —5, -2 Bt, 答案 为 20( 从 Az 到 44)。 

这 个 问题 所 以 有 吸引 力 , 主要 是 因为 存在 求解 它 的 很 多 算法 , 而 这 些 算法 的 性 能 又 差异 
很 大 。 我 们 将 讨论 求解 该 问题 的 四 种 算法 。 这 四 种 算法 在 某 台 计算 机 上 (究竟 是 哪 一 台 具体 
的 计算 机 是 不 重要 的 ) 的 运行 时 间 在 图 2-2 给 出 。 


























算法 1 2 3 4 
f a 

时 间 on) ow O(NlogN) | 0) 

N = 10 0.00103 | 0.00045 | 0.00066 | 0.00034 
输入 | N = 100 0.47015 0.01112 | 0.00486 | 0.00063 
大 小 | N = 1000 448.77 11233 0.05843 | 0.00333 
im | N = 10000 NA nis 0.68631 | 0.03042 

N = 100000 NA NA 8.0113 | 0.29832 





























图 2-2 计算 最 大 子 序列 和 的 几 种 算法 的 运行 时 间 ( 秒 ) 


表 中 有 几 个 重要 的 情况 值得 注意 。 对 于 小 量 的 输入 , MEERE, HNR RE 
小 量 输 入 的 情形 , 那么 花费 大 量 的 努力 去 设计 聪明 的 算法 丽 怕 就 太 不 值得 了 。 另 一 方面 , 近 
来 对 于 重 写 那些 不 再 合理 的 基于 小 输入 量 假设 而 在 五 年 以 前 编写 的 程序 确实 存在 着 巨大 的 市 
场 。 现 在 看 来 , 这 些 程序 太 慢 了 , 因为 它们 用 的 算法 不 是 好 算法 。 对 于 大 量 的 输入 , 算法 4 显 
然 是 最 好 的 选择 (虽然 算法 3 也 是 可 用 的 )。 

其 次 , 表 中 所 给 出 的 时 间 不 包括 读 人 数据 所 需要 的 时 间 。 对 于 算法 4， 仅 仅 从 磁盘 读 人 
数据 所 用 的 时 间 很 可 能 在 数量 级 上 比 求解 上 述 问题 所 需要 的 时 间 还 要 大 。 这 是 许多 有 效 算法 
中 的 典型 特点 。 数 据 的 读 人 一 般 是 个 瓶颈 ; 一 旦 数据 读 人 , 问题 就 会 迅速 解决 。 但 是 , 对 于 低 
效率 的 算法 情况 就 不 同 了 , 它 必然 要 耗费 大 量 的 计算 机 资源 。 因 此 只 要 可 能 ,使 得 算法 足够 
有 效 而 不 致 成 为 问题 的 瓶颈 是 非常 重要 的 。 

图 2-3 指出 这 四 种 算法 运行 时 间 的 增长 率 。 尽 管 该 图 只 包含 N 从 10 到 100 的 值 , 但 是 
相对 增长 率 还 是 很 明显 的 。 虽 然 算法 3 的 图 看 起 来 是 线性 的 , 但 是 用 一 把 直 尺 (或 是 一 张 纸 ) 
容易 验证 它 并 不 是 直线 。 图 2-4 显示 对 于 更 大 值 的 性 能 。 该 图 戏剧 性 地 描述 出 ,即使 输入 量 
的 大 小 是 适度 的 ， 低 效 算法 依旧 无 用 。 
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图 2.3 各 种 计算 最 大 子 序列 和 的 算法 ( 横 坐标 为 N, 纵 坐标 为 毫秒 ) 图 
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图 2-4 各 种 计算 最 大 子 序列 和 的 算法 ( 横 坐标 为 N, 纵 坐标 单位 为 秒 ) 图 


2.4 运行 时 间 计 算 


有 几 种 方法 估计 一 个 程序 的 运行 时 间 .。 前 面 的 表 是 赁 经 验 得 到 的 。 如 果 两 个 程序 花费 的 
时 间 大 致 相同 ,要 确定 哪个 程序 更 快 的 最 好 方法 很 可 能 就 是 将 它们 编码 并 运行 ! 

一 般 地 , 存在 几 种 算法 思想 ,而 我 们 总 愿意 尽早 除去 那些 不 好 的 算法 思想 , 因此， 通 党 
需要 对 算法 进行 分 析 。 不 仅 如 此 ,进行 分 析 的 能 力 还 有 助 于 洞察 到 如 何 设计 有 效 的 算法 。 
般 说 来 ,分 析 还 能 准确 确定 需要 仔细 编码 的 瓶颈 。 

为 了 简化 分 析 , 我 们 将 采纳 如 下 的 约定 :不 存在 特定 的 时 间 单位 。 因此, 我 们 抛弃 一 些 。 
我 们 还 将 抛弃 低 阶 项 ,从 而 我 们 要 做 的 就 是 计算 大 O 运行 时 间 。 由 于 大 O 是 一 个 上 界 , 因 
此 我 们 必须 仔细 ， 绝 不 要 低估 程序 的 运行 时 间 。 实际 上 , 分 析 的 结果 为 程序 在 一 定 的 时 间 范 
围 内 能 够 终止 运行 提供 了 保障 。 程 序 可 能 提前 结束 , 但 绝 不 可 能 拖 后 。 

2.4.1 一 个 简单 的 例子 
这 里 是 计算 OY P 的 一 个 简单 的 程序 片段: 
Sont dnt N) 


int i, PartialSum; 


EU PartialSum = 0; 
7* 28/ for( 3 = l; d ce Nj ist ) 
EU PartialSum = i * i * i; 
7 nj return PartialSum; 


对 这 个 程序 的 分 析 很 简单 。 声 明 不 计时 间 。 第 1 行 和 第 4 行 各 占 一 个 时 间 单元 。 第 3 行 
每 执行 一 次 占用 四 个 时 间 单 元 (两 次 乘法 ,一 次 加 法 和 一 次 赋值 ), 而 执行 N 次 共 占 用 4N 个 
时 间 单 元 。 第 二 行 在 初始 化 i、 测试 HN 和 对 ; 的 自 增 运算 中 隐 含 着 开销 。 所 有 这 些 的 总 开 
销 是 初始 化 1 个 时 间 单元 , 所 有 的 测试 N + 1 个 时 间 单元 , 以 及 所 有 的 自 增 运算 N 个 时 间 单 
元 , SEIN + 2。 我 们 忽略 调用 函数 和 返回 值 的 开销 , 得 到 总 量 是 6N + 4。 因此, 我 们 说 该 函数 


是 O(N)。 
如 果 我 们 每 次 分 析 一 个 程序 都 要 演示 所 有 这 些 工作 , 那么 这 项 任务 很 快 就 会 变 成 不 可 行 


[19] 
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的 工作 。 幸运 的 是 , 由 于 我 们 有 了 大 O 的 结果 , 因此 就 存在 许多 可 以 采取 的 捷径 并 且 不 影响 
最 后 的 结果 。 例如 , 第 三 行 (每 次 执行 时 ) 显 然 是 O(1) 语 句 , 因此 精确 计算 它 究竟 是 二 、 三 还 
JE PTCA; 这 无 关 紧 要 。 第 一 行 与 for 循环 相 比 显然 是 不 重要 的 , 所 以 在 这 里 
化 费时 间 也 是 不 明智 的 。 这 使 得 我 们 得 到 若干 一 般 法 则 。 
2.4.2 一 般 法 则 

法 则 1 一 一 FOR 循环 : 

一 次 for 循环 的 运行 时 间 至 多 是 该 for 循环 内 语句 (包括 测试 ) 的 运行 时 间 乘 以 迁 代 的 
次 数 。 

法 则 2— HK ERO for 循环 

从 里 向 外 分 析 这 些 循环 。 在 一 组 谋 套 循环 内 部 的 一 条 语句 总 的 运行 时 间 为 该 语句 的 运行 
时 间 来 以 该 组 所 有 的 for 循环 的 大 小 的 乘积 。 

作为 一 个 例子 ,下 列 程序 片段 为 O(N?): 

for( i = 0; i < N; i++ ) 


forc j = 0; j <N; jt) 
ktr; 








法 则 3 一 一 顺序 语句 

将 各 个 语句 的 运行 时 间 求 和 即 可 (这 意味 着 ， 其 中 的 最 大 值 就 是 所 得 的 运行 时 间 ; 见 2.1 
PHAM 1(a))。 

作为 一 个 例子 , 下面 的 程序 片段 先 用 去 O(N) ,再 花费 O(N?) ,总 的 开销 也 是 O(N?): 


for i = 0; i < Ni ist) 
[i 





ZEDE 
"ELLE PET 
法 则 4 一 一 IF/ELSE 语句 
对 于 程序 片段 
if( Condition ) 
E 


else 
s2 


一 个 if/else 语 自 的 运行 时 间 从 不 超过 判断 再 加 上 S1 和 S2 中 运行 时 间 长 者 的 总 的 运行 
时 间 。 

显然 在 某 些 情形 下 这 么 估计 有 些 过 高 , 但 绝 不 会 估计 过 低 。 

其 他 的 法 则 都 是 显然 的 , 但 是 ,分 析 的 基本 策略 是 从 内 部 (或 最 深层 部 分 ) 向 外 展开 的 。 
如 果 有 函数 调用 , 那么 这 些 调用 要 首先 分 析 。 如 果 有 递归 过 程 , 那么 存在 几 种 选择 。 FRA 
实际 上 只 是 被 薄 面纱 庶 住 的 for 循环 , 则 分 析 通常 是 很 简单 的 。 例 如 , 下 面 的 函数 实际 上 就 是 
一 个 简单 的 循环 ,从 而 其 运行 时 间 为 OCN): 


long int 
Factorial( int N ) 


if(N<=1) 
return 1; 
else 
return N * Factorial( N - 1); 
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这 个 例子 中 对 递归 的 使 用 实际 上 并 不 好 。 当 递归 被 正常 使 用 时 , 将 其 转换 成 一 个 简单 的 
循环 结构 是 相当 困难 的 。 在 这 种 情况 下 , 分 析 将 涉及 求解 一 个 递 推 关 系 。 为 了 观察 到 这 种 可 
能 发 生 的 情形 , 考虑 下 列 程序 , 实际 上 它 对 递归 使 用 的 效率 低 得 令 人 惊 这 - 


Jong int 
Fib( int N ) 
t 


se ey ifCN 1) 
f^ return 1 
else 
nx return Fib( N - 1) + Fib( N - 2); 


初 看 起 来 ,该 程序 似乎 对 递归 的 使 用 非常 聪明 。 可 是 ,如 果 将 程序 编码 ,是 赋 子 N 大 约 
30 的 值 并 运行 ,那么 这 个 程序 让 人 感到 效率 低 得 吓人 - 分 析 十 分 简单 : 令 T(N ) 为 函数 
Fib (NN) 的 运行 时 间 。 如 果 N=0 或 N=1. 则 运行 时 间 是 某 个 常数 值 , 即 第 一 行 上 做 判断 以 
及 返回 所 用 的 时 间 。 因为 常数 并 不 重要 ,所 以 我 们 可 以 说 T(0) = T(D = 1. 对 于 N 的 其 他 
值 的 运行 时 间 则 相对 于 基准 情形 的 运行 时 间 来 度量 - 若 N > 2, 则 执行 该 函数 的 时 间 是 第 一 
行 上 的 常数 工作 加 上 第 上 的 工作 。 第 三 行 由 一 次 加 法 和 两 次 函数 调用 组 成 。 由 于 函数 调 















用 不 是 简单 的 运算 通过 它们 本 身 来 分 析 , 第 一 次 函数 调用 是 Fib(N - 1)， 从 而 按照 T 
HEL, ERE TN - 1) 个 时 间 单 元 。 类 似 的 论证 指出 , 第 二 次 函数 调用 需要 TUN - 2) 个 





时 间 单 元 。 此 时 总 的 时 间 和 需求 为 T(N -1)+ TON 72) +2, 其 中 “2” 指 的 是 第 一 行 上 的 工作 
加 上 第 三 行 上 的 加 法 。 于 是 对 于 N 之 2 我 们 有 下 列 关 于 Fib( NN) 的 运行 时 间 公 式 ; 
T(N)=T(N-1)+T(N-2)+2 

但 是 Fib(N)= Fib(N ~ 1) + Fib(N - 2), 因此 由 归纳 法 容易 证 明 T(N) Fib(N); 在 
1.2.5 节 我 们 证 明 过 Fib(N) <(5/3)%, 类 似 的 计算 可 以 证 明 (对 于 N > 4) FibUN) 2 (37 
2)N, 可 见 , 这 个 程序 的 运行 时 间 以 指数 的 速度 增长 。 这 大 致 是 最 坏 的 情况 。 通 过 保留 一 个 简 
单 的 数组 并 使 用 一 个 for 循环 , 运行 时 间 可 以 被 实质 性 地 减少 下 来 - 

这 个 程序 之 所 以 缓慢 , 是 因为 存在 大 量 多 余 的 工作 要 做 , 违反 了 在 节 1.3 中 叙述 的 递归 
的 第 四 条 主要 的 法 则 (合成 效益 法 则 )。 注意 , 在 的 第 一 次 调用 即 Fib( NN 一 1) 实 际 上 
计算 了 Fib(N - 2). 这 个 信息 被 抛弃 而 在 第 -的 第 二 次 调用 时 又 重新 计算 了 一 遍 。 抛 奔 
的 信息 量 递归 地 合成 起 来 并 导致 巨大 的 运行 时 间 。 这 或 许 是 属 言 “计算 任何 事情 不 要 超过 一 
次 " 的 最 好 的 实例 , 但 它 不 应 使 你 被 吓 得 远离 递归 而 不 敢 使 用 它 - 本 书 中 我 们 将 随处 看 到 北 
归 的 出 色 的 使 用 。 
2.4.3 最 大 子 序列 和 问题 的 解 

现在 我 们 将 要 叙述 四 个 算法 来 求解 早先 提出 的 最 大 子 序列 和 问题 。 第 一 个 算法 在 图 2-5 
中 表述 , 它 只 是 穷 举 式 地 尝试 所 有 的 可 能 - Cor 循环 中 的 循环 变量 反映 C 中 数组 从 0 开始 而 不 
是 从 1 开始 这 样 一 个 事实 - 再 有 , 本 算法 并 不 计算 实际 的 子 序列 ; 实际 的 计算 还 要 添加 一 些 
额外 的 程序 。 

该 算法 肯定 会 正确 运行 (这 不 应 该 花 太 多 的 时 间 去 证 明 )。 运行 时 间 为 O(N?) , 这 完全 肥 
决 于 第 5 行 和 第 6 行 , otii — A T — ERE for 循环 中 的 OU ) 语 句 组 成 。 第 2 行 上 的 
循环 大 小 为 N。 

第 2 个 循环 大 小 为 N- i， 它 可 能 要 小 , 但 也 可 能 是 N。 我 们 必须 假设 最 坏 的 情况 ,而 这 
可 能 会 使 得 最 终 的 界 有 些 大 。 第 3 个 循环 的 大 小 为 7 一 :+ 1， 我 们 也 要 假设 它 的 大 小 为 N 






m 
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因此 总 数 为 O(1* NN*N)= O(N3)。 语句 1 总 共 的 开销 只 是 O(1), 而 语句 7 和 8 总 共 开 
销 也 只 不 过 O(N?), 因为 它们 只 是 两 层 循环 内 部 的 简单 表达 式 。 














int 
MaxSubsequenceSum( const int A[ ], int N ) 
( 
int ThisSum, MaxSum, i, j, ki 
/* 1*/ MaxSum = 0; 
/* 2*/ for( i = 0; PIN i++ ) 
P for( j = i; j < N; j++) 
i 
poer ThisSum = 0; 
J'y for( k = i; k <= j; k++) 
/* 6*/ ThisSum += AL k J; 
EVI if( ThisSum > MaxSum ) 
/* 8*/ MaxSum = ThisSum; 
) 
/* 9h return MaxSum; 
) 
图 2-5 算法 1 
事实 上 , 考虑 到 这 些 循环 的 实际 大 小 , 更 精确 的 分 析 指出 答案 是 ON), 而 我 们 上 面 的 


估计 高 出 个 因子 6( 不 过 这 并 无 大 碍 ， 因为 党 数 不 影响 数量 级 )。 一 般 说 来 , 在 这 类 问题 中 上 
述 结论 是 正确 的 。 精 确 的 分 析 由 和 >) SIT >);_,1 得 到 , 该 和 指出 程序 的 第 6 行 被 执 


行 的 次 数 。 使 用 1.2.3 节 中 的 公式 可 以 对 该 和 从 内 到 外 求 值 。 特 别 地 , 我们 将 用 到 前 N 个 整 
数 求 和 以 及 前 N 个 平方 数 求 和 的 公式 。 首 先 我 们 有 
Sı =j-i+1 
接着 , 我 们 得 到 
S6-i«n- Nini N-i 
这 个 和 数 是 对 前 N -i 个 整数 求 和 而 算得 。 为 完成 全 部 计算 , 我 们 有 
$ (N-LEDON - D A È (Nit IN -i+2) 





ye -(v«3)5i doe eo m1 
1 


L 
2 
IN MOCCDON 1 - (v+3 jaa, MINGAIN 
2 





ee 
a 6 


我 们 可 以 通过 撤除 一 个 for 循环 来 避免 立方 运行 时 间 。 不 过 这 不 总 是 可 能 的 , 在 这 种 情 
况 下 算法 中 出 现 大 量 不 必要 的 计算 。 纠 正 这 种 低 效率 的 改进 算法 可 以 通过 观察 Dye Ae = 
A; + DA 而 看 出 ,因此 算法 1 中 第 5 行 和 第 6 行 上 的 计算 过 分 地 耗 时 了 。 图 2-6 指出 一 


种 改进 的 算法 。 算 法 2 显然 是 O(N2); 对 它 的 分 析 甚至 比 前 面 的 分 析 还 简单 。 
对 这 个 问题 有 一 个 递归 和 相对 复杂 的 O(N logN) 解 法 ,我 们 现在 就 来 描述 它 。 要 是 真 的 
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| int 

MaxSubSequenceSum( const int A[ J, int N) | 

int ThisSum, MaxSum, i, j; 
| aay MaxSum = 0 
| te for(i = 0: i <N; ise) 
E Thissum = 0; 
| yea for(j = i; j <N; j++) | 
| 
| pe sey Thissum += AL j J; | 
| pe e ifC ThisSum > MaxSum ) | 
| tm MaxSum = ThisSum: 
} 

| RES | 
| ze Be return MaxSum; | 





! 





图 2.6 算法 2 
没 出 现 O(N)( 线 性 的 ) 解 法 ,这 个 算法 就 会 是 体现 递归 威力 的 极 好 的 范例 了. 该 方法 采用 一 
种 “分 治 (divide-and-conquer)” 策略。 其 想法 是 把 问题 分 成 两 个 大 致 相等 的 子 问题 EU 
地 对 它们 求解 , 这 是 “分 ” 部分。“ 治 ”阶段 将 两 个 子 问题 的 解 合并 到 一 起 并 可 能 再 做 些 少量 
的 附加 工作 , 最 后 得 到 整个 问题 的 解 。 

在 我 们 的 例子 中 , 最 大 子 序列 和 可 能 在 三 处 出 现 , 或 者 整个 出 现在 输入 数据 的 左 半 部 ， 
或 者 整个 出 现在 右 半 部 , 或 者 跨越 输入 数据 的 中 部 从 而 占据 左右 两 半 部 分 。 前 两 种 情况 可 以 
递归 求解 。 第 三 种 情况 的 最 大 和 可 以 通过 求 出 前 半 部 分 的 最 大 和 (包含 前 半 部 分 的 最 后 一 个 
元 素 ) 以 及 后 半 部 分 的 最 大 和 (包含 后 半 部 分 的 第 一 个 元 素 ) 而 得 到 。 然后 将 这 两 个 和 加 在 一 
起 . 作为 一 个 例子 ,考虑 下 列 输入 : 


其 中 前 半 部 分 的 最 大 子 序列 和 为 6( 从 元 素 A 到 A;) 而 后 半 部 分 的 最 大 子 序列 和 为 8( 从 元 
X Ag 到 A7): 

前 半 部 分 包含 其 最 后 一 个 元 素 的 最 大 和 是 4( 从 元 素 A 到 Ag), 而 后 半 部 分 包含 其 第 一 
个 元 素 的 最 大 和 是 7( 从 元 素 As 到 Ay). 因此 , 横 跨 这 两 部 分 且 通 过 中 间 的 最 大 和 为 4+7= 11 
(Mot A, 到 Az) 

我 们 看 到 , 在 生成 本 例 中 最 大 子 序 列 和 的 三 种 方法 中 , 最 好 的 方法 是 包含 两 部 分 的 元 
X. 于 是 , 答案 为 11。 图 2-7 提出 了 这 种 策略 的 一 种 实现 手段 - 

有 必要 对 算法 3 的 程序 进行 一 些 说 明 - 递归 过 程 调用 的 一 般 形式 是 传递 输入 的 数组 以 及 
左 (left) 边 界 和 右 (right) 边 界 , 它们 界定 了 数组 要 被 处 理 的 部 分 。 单行 驱动 程序 通过 传递 数组 
以 及 边界 0 和 N — 1 而 启动 该 过 程 。 

第 1 行 至 第 4 行 处 理 基准 情况 。 如 果 Left = = Right, 那么 只 有 一 个 元 素 ， 并 且 当 该 元 
素 非 负 时 它 就 是 最 大 和 子 序列 。Left > Right 的 情况 是 不 可 能 出 现 的 ， 除非 N 是 负数 (不 
kb. 程序 中 的 小 的 扰动 有 可 能 致使 这 种 混乱 产生 )。 第 6 行 和 第 7 行 执行 两 次 递归 调用 。 我 们 
可 以 看 到 , 递归 调用 总 是 对 小 于 原 问题 的 问题 进行 ， 但 程序 中 的 小 扰动 有 可 能 破坏 这 个 特 
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static int 
axSubsunt const int A[ ], int Left, int Right ) 
int MaxLeftSum, MaxRightSum; 
int MaxLeftBorderSum, MaxRightBorderSum; 
int LeftBorderSum, RightBorderSum; 
int Center, i; 
/* le/ if( Left == Right ) /* Base Case */ 
/* 2*7 ifCA[ Left 1 > 0) 
+I return A( Left J; 
else 
fay return 0; 
Jt" Center = ( Left + Right ) / 2; 
/* 6*7 MaxLeftSum = MaxSubSum( A, Left, Center ); 
wry MaxRightSum - MaxSubSum( A, Center + 1, Right ); 
je 8*/ MaxLeftBorderSum = 0; LeftBorderSum = 0 
/* 9* for( i = Center; i >= Left; i-- ) 
{ 
/*10*/ LeftBorderSum += A[ i J; 
/*/ if( LeftBorderSum > MaxLeftBorderSum ) 
fea MaxLeftBorderSum = LeftBorderSum; 
) 
/naj/ MaxRightBorderSum = 0; RightBorderSum = 0; 
/*14*/ for( i = Center + 1; i <= Right; i++ ) 
1 
/*15*/ RightBorderSum += A[ 1 ]; 
/*16*/ if( RightBorderSum > MaxRightBorderSum ) 
/1°17*/ MaxRightBorderSum = RightBorderSum; 
) 
/*18*/ return Max3( MaxLeftSum, MaxRightSum, 
/*19*/ MaxLeftBorderSum + MaxRightBorderSum ); 
) 
int 
MaxSubsequenceSum( const int A[ ], int N ) 
return MaxSubSum( A, 0, N - 1): 
) 











图 2-7 算法 3 


dk. 第 8 行 至 第 12 行 以 及 第 13 行 至 第 17 行 计算 达到 中 间 分 界 处 的 两 个 最 大 和 的 和 数 。 这 两 
个 最 大 和 的 和 为 扩展 到 左右 两 边 的 最 大 和 。 伪 例 程 (pseudoroutine)Max3 返回 这 三 个 可 能 的 最 
大 和 中 的 最 大 者 。 

BR, 编程 时 ,算法 3 比 前 面 两 种 算法 需要 更 多 的 精力 。 然而 , 程序 短 并 不 总 意味 着 程序 
好 。 正 如 我 们 在 前 面 显 示 算法 运行 时 间 的 表 中 已 经 看 到 的 ， 除 最 小 的 输入 外 , 该 算法 比 前 两 
个 算法 明显 要 快 。 

对 运行 时 间 的 分 析 方 法 与 在 分 析 计算 斐 波 那 契 数 程序 时 的 方法 类 似 。 令 T(N ) 是 求解 大 
小 为 N 的 最 大 子 序列 和 问题 所 花费 的 时 间 。 如 果 N = 1, 则 算法 3 执行 程序 第 1 行 到 第 4 行 
花费 某 个 时 间 常 量 , 我 们 称 之 为 一 个 时 间 单元 。 于 是 ，T(1) 71. 否则 , 程序 必须 运行 两 次 递 
归 调 用 , 即 在 第 9 行 和 第 17 行 之 间 的 两 个 for 循环 , 还 需 某 个 小 的 短 记 量 ,如 在 第 5 行 和 第 
18 行 。 这 两 个 for 循环 总 共 接触 到 从 Ay 到 Ax -1 的 每 一 个 元 素 ， 而 在 循环 内 部 的 工作 量 是 常 
Hk, 因此 , 在 第 9 到 17 行 花费 的 时 间 为 O(N)。 第 1 行 到 第 5 行 ,第 8、13 和 18 行 上 的 程序 
的 工作 量 都 是 常量 , 从 而 与 O(N) 相 比 可 以 忽略 。 其 余 就 是 第 6、7 行 上 运行 的 工作 。 这 两 行 
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求解 大 小 为 NMX2 的 子 序列 问题 (假设 N 是 偶数 )。 因 此 , 这 两 行 每 行 花费 TON 2) Pot AE 
元 , 共 花 费 2T(N/2) 个 时 间 单 元 - 算法 3 花费 的 总 的 时 间 为 2T(N/2) + O(N). 我 们 得 到 
方程 组 
T(D)=1 
T(N) = 2T(N/2) + O(N) 
为 了 简化 计算 , 我 们 可 以 用 N 代替 上 面 方程 中 的 O(N) 项 ; 由 于 T(N) 最 终 还 是 要 用 大 
O 来 表示 的 , 因此 这 么 做 并 不 影响 答案 。 在 第 7 章 , 我 们 将 会 看 到 如 何 严格 地 求解 这 个 方程 。 
至 于 现在 , 如 果 TUN) -2T(N/2 * N B. T(D 91. 那么 T(2)=4=2 * 2, T(4)=12= 
4 * 3, T(8)=32=8 * 4, 以 及 T(16)=80 =16 * 5。 其 形式 是 显然 的 并 且 可 以 得 到 , 即 
若 V=24, 则 T(N)=N*(e+l)=NlogN+N=O(Nlog N): 
这 个 分 析 假 设 N 是 偶数 , 因为 否则 N/2 就 不 确定 了 。 通 过 该 分 析 的 递归 性 质 可 知 , 实 
际 上 只 有 当 N 是 2 WREN, 结果 才 是 合理 的 ， 否则 我 们 最 终 要 遇 到 大 小 不 是 偶数 的 子 问题 ， 
方程 就 无 效 了 。 当 N 不 是 2 的 寡 的 时 候 , 我 们 多 少 需要 更 加 复杂 一 些 的 分 析 , 但 是 大 O 的 结 
果 是 不 变 的 。 
在 后 面 的 章节 中 , 我 们 将 看 到 递归 的 几 个 漂亮 的 应 用 。 这 里 , 我 们 还 是 介绍 求解 最 大 子 
序列 和 的 第 四 种 方法 ,该 算法 实现 起 来 要 比 递归 算法 简单 而 且 更 为 有 效 。 它 在 图 2-8 中 
给 出 。 











int 
MaxSubsequenceSum( const int AL ], int N ) 
{ 
int ThisSum, MaxSum, j; 
yey ThisSum = MaxSum = 0; 
/* 2*7 for( j = 0; j <N; j++) 
{ 
E ThisSum += AL j ]; 
/* ar if( ThisSum > MaxSum ) 
55 MaxSum = ThisSum; 
/* 6*/ else if( ThisSum < 0) 
/* TS ThisSum = 0; 
) 
/* 8 return MaxSum; 
) 
图 2-8 算法 4 


不 难 理解 为 什么 时 间 的 界 是 正确 的 , 但 是 要 明白 为 什么 算法 是 正确 可 行 的 会 费 些 思考 ; 我 
们 把 它 留 给 读者 去 完成 。 该 算法 的 一 个 附带 的 优点 是 , 它 只 对 数据 进行 一 次 扫描 , 一 旦 ALi] 8 
读 和 并 被 处 理 , 它 就 不 再 需要 被 记忆 。 因 此 , 如 果 数 组 在 磁盘 或 磁带 上 , 它 就 可 以 被 顺序 读 人 ， 
在 主 存 中 不 必 存 储 数组 的 任何 部 分 。 不仅 如 此 , 在 任意 时 刻 , 算法 都 能 对 它 已 经 读 人 的 数据 给 
出 子 序列 问题 的 正确 答案 (其 他 算法 不 具有 这 个 特性 )。 具 有 这 种 特性 的 算法 叫做 联机 算法 (on- 
line algorithm)。 仅 需要 常量 空间 并 以 线性 时 间 运 行 的 在 线 算法 几乎 是 完美 的 算法 。 
2.4.4 ”运行 时 间 中 的 对 数 

分 析 算法 最 混乱 的 方面 大 概 集中 在 对 数 上 面 。 我 们 已 经 看 到 , 某 些 分 治 算法 将 以 O(N 
log N) 时 间 运 行 。 除 分 治 算法 外 , 可 将 对 数 最 常 出 现 的 规律 概括 为 下 列 一 般 法 则 :如 果 一 个 算 
法 用 常数 时 间 (O(1)) 将 问题 的 大 小 削减 为 其 一 部 分 (通常 是 1/2)， 那么 该 算法 就 是 O(log 
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NN)。 另 一 方面 ,如 果 使 用 常数 时 间 只 是 把 问题 减少 一 个 常数 (如 将 问题 减少 1), 那么 这 种 算 
法 就 是 O(N) 的 。 

显然 , 只 有 一 些 特殊 种 类 的 问题 才能 够 呈现 出 O(log N) 型 。 例如 , 若 输入 NN 个 数 , 则 一 个 
算法 只 是 把 这 些 数 读 人 就 必须 耗费 Q(N) 的 时 间 量 。 因 此 ， 当 我 们 谈 到 这 类 问题 的 O(log N) 算 
法 时 , 通常 都 是 假设 输入 数据 已 经 提前 读 人 。 我 们 提供 具有 对 数 特点 的 三 个 例子 。 
对 分 查找 

第 一 个 例子 通常 叫做 对 分 查找 (binary search) . 
对 分 查找 : 

给 定 一 个 整数 X 和 整数 Ao，A1，...，AN-1, 后 者 已 经 预先 排序 并 在 内 存 中 ，, 求 使 得 
Ai=X 的 下 标 i， 如 果 X 不 在 数据 中 , 则 返回 i= 一 1。 

明显 的 解法 是 从 左 到 右 扫描 数据 , 其 运行 花费 线性 时 间 。 然 而 , 这 个 算法 没有 用 到 该 表 
已 经 排序 的 事实 , 这 就 使 得 算法 很 可 能 不 是 最 好 的 。 一 个 好 的 策略 是 验证 X 是 否 是 居中 的 元 
素 。 如 果 是 ， 则 答案 就 找到 了 。 如 果 X 小 于 居中 元 素 , 那么 我 们 可 以 应 用 同样 的 策略 于 居中 
元 素 左边 已 排序 的 子 序列 ; 同 理 , 如 果 X 大 于 居中 元 素 , 那么 我 们 检查 数据 的 右 半 部 分 。( 也 
存在 可 能 会 终止 的 情况 。) 图 2-9 列 出 了 对 分 查找 的 程序 (其 答案 为 Mid)。 图 中 的 程序 反映 了 
C 语言 数 组 下 标 从 0 开始 的 惯例 。 




















int 
BinarySearch( const ElementType A[ J, ElementType X, int N ) 
{ 
int Low, Mid, High; 
Ele nt A Low = 0; High = N - 1; 
tog whileC Low <= High ) 
{ 
7* 3*7 Mid = ( Low + High ) / 2; 
/* 4*/ if( AL Mid] < X ) 
Pp oe Low = Mid + 1; 
else 
/* 6*/ ifC AL Mid ] > X ) 
JM High = Mid - 1; 
else 
/* 8*/ return Mid; /* Found */ 
} 
/* 9 return NotFound;  /* NotFound is defined as -1 */ 
) 
图 2-9 对 分 查找 


显然, 每 次 迭代 在 循环 内 的 所 有 工作 花费 为 O(1), 因此 分 析 需 要 确定 循环 的 次 数 。 循 环 
从 High - Low = N - 1 开始 并 在 High - Low 之 -1 结束。 每 次 循环 后 High - Low 的 值 至 
少将 该 次 循环 前 的 值 折 半 ; 于 是 , 循环 的 次 数 最 多 为 Tiog(N - 1)1+ 2。( 例 如 , d$ High — 
Low = 128, MÆRKER High- Low 的 最 大 值 是 64, 32, 16, 8, 4, 2, 1, 0, -1o 2I 
jt, 运行 时 间 是 O(log N)。 等 价 地 ， 我 们 也 可 以 写 出 运行 时 间 的 递 推 公式 , 不 过 ， 当 我 们 理 
解 实际 在 做 什么 以 及 为 什么 这 样 做 的 原理 时 这 种 强行 写 公式 的 做 法 通常 没有 必要 。 

对 分 查找 可 以 看 作 是 我 们 的 第 一 个 数据 结构 实现 方法 , 它 提供 了 在 O(log NN) 时 间 内 的 
Find( 查 找 ) 操 作 , 但 是 所 有 其 他 操作 (特别 是 Insert( 插 人 ) 操 作 ) 均 需要 O(NN) 时 间 。 在 数据 
是 稳定 ( 即 不 允许 插入 操作 和 删除 操作 ) 的 应 用 中 , 这 可 能 是 非常 有 用 的 。 此 时 输入 数据 需要 
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-次 排序 . 但 是 此 后 的 访问 会 很 快 。 有 个 例子 是 一 个 程序 , 它 需 要 保留 (产生 于 化 学 和 物理 中 
的 ) 元 素 周期 表 的 信息 。 这 个 表 是 相对 稳定 的 , 因为 偶尔 会 加 进 新 的 元 素 。 元 素 名 可 以 始终 是 
EHE, HF FUGO 110 种 元 素 , 因此 找到 一 个 元 素 最 多 需要 访问 八 次 - 要 是 执行 顺序 查 
找 就 会 需 鉴 多 得 多 的 访问 次 数 。 

欧 几 里 德 算法 

第 二 个 例子 是 计算 最 大 公 因数 的 欧 几 里 德 算法 两 个 整数 的 最 大 公 因 数 ( Ged ) 是 同时 整 
除 二 者 的 最 大 整数 。 于 是 ，Gcd (50, 15) = 5. 图 2-10 中 的 算法 计算 Ged (M，N), 假设 
MEN, CR N > M, 则 循环 的 第 一 次 迭代 将 它们 互相 交换 )。 








unsigned int 
Gcd( unsigned int M, unsigned int N ) 
t 

unsigned int Rem; 


fav whileCN > 0) 
{ 
ga Rem = MXN. 
JM MeN; 
/* 487 N = Rem; 
} 
/I* su return M: 


| 
| 
| 
LU 





图 2-10 欧 几 里 德 算法 


算法 通过 连续 计算 余数 直到 余数 是 0 为止 ,最 后 的 非 零 余数 就 是 最 大 公 因 数 。 因 此 ,如 
RM =1989 和 N=1590, 则 余数 序列 是 399 , 393 , 6 , 3, 0。 从 而 ，Ged (1989, 1590) =3. 
正如 例子 所 表明 的 , 这 是 一 个 快速 算法 。 

如 前 所 述 , 估计 算法 的 整个 运行 时 间 依赖 于 确定 余数 序列 究竟 有 多 长 。 虽 然 log N 看 似 
理想 中 的 答案 , 但 是 根本 看 不 出 余数 的 值 按照 常数 因子 递减 的 必然 性 ， 因 为 我 们 看 到 ， 例 中 
的 余数 从 399 仪 仅 降 到 393。 事实 上 , 在 一 次 迭代 中 余数 并 不 按照 一 个 常数 因子 递减 。 然 而 ， 
我 们 可 以 证 明 , 在 两 次 迭代 以 后 , 余数 最 多 是 原始 值 的 一 半 。 这 就 证 明了 , 选 代 次 数 至 多 是 
2 log N= O(log N) 从 而 得 到 运行 时 间 。 这 个 证 明 并 不 难 , 因此 我 们 将 它 放 在 这 里 , 它 可 从 下 
列 定理 直接 推出 。 

定理 2.1 

如 果 M > N, 则 M mod N < M72. 

WEBB: 

存在 两 种 情形 。 如 果 NM 2, 则 由 于 余数 小 于 N, 故 定理 在 这 种 情形 下 成 立 。 另 一 种 
情形 是 N > M/2。 但 是 此 时 M 仅 含有 一 个 N 从 而 余数 为 M - N < M/2, 定理 得 证 。 

从 上 面 的 例子 来 看 , 2 log N 大 约 为 20, 而 我 们 仅 进行 了 7 次 运算 , 因此 有 人 会 怀疑 这 是 
不 是 可 能 的 最 好 的 界限 。 事实 上 , 这 个 常数 在 最 坏 的 情况 下 (如 M RUN. 是 两 个 相 邻 的 斐 波 屠 
契 数 时 就 是 这 种 情况 ) 还 可 以 稍微 改进 成 1.44log N。 欧 几 里 德 算法 在 平均 情况 下 的 性 能 需要 
大 最 篇 幅 的 高 度 复杂 的 数学 分 析 , 其 迭代 的 平均 次 数 约 为 (12 In2 InN) /x? + 1.47. 
quu 

我 们 在 本 节 的 最 后 一 个 例子 是 处 理 一 个 整数 的 宕 ( 它 还 是 一 个 整数 )。 由 取 香 运 算得 到 的 
数 _- 般 部 是 相当 大 的 , 因此 , 我 们 只 能 在 假设 有 一 台 机 器 能 够 存储 这 样 一 些 大 整数 (或 有 一 
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个 编译 程序 能 够 模拟 它 ) 的 情况 下 进行 我 们 的 分 析 。 我 们 将 用 乘法 的 次 数 作为 运行 时 间 的 
度量 。 

计算 XN 的 常见 的 算法 是 使 用 N - 1 次 乘法 自 乘 。 图 2-11 中 的 递归 算法 更 好 。 第 1 行 至 
第 4 行 处 理 基准 情形 。 如 果 N 是 偶数 , 我 们 有 XN =X XN?, 如 果 N 是 奇数 , 则 XN = 
XN-D/2, XN-D/2. Xx. 





long int 
Pow( long int X, unsigned in N ) 
t 


ee WA ifC N == 0 ) 

fI return 1; 

I $y if( N == 1) 

A return X; 

/* 5*/ if( IsEven( N ) ) 

/* 9 return Pow( X * X, N / 2): 
eise 

Ir return Pow X * X, N / 2) * X 











图 2-11 高 效率 的 取 竺 运算 


例如 , 为 了 计算 XS, 算法 将 如 下 进行 , 它 只 用 到 9 次 乘法 : 
X3=(X2)X, X!» (X3)2 X, X6- (XT! x, X9 = (XI5)2 x, xe - Qeny 
显然 , 所 需要 的 乘法 次 数 最 多 是 2 logN , 因为 把 问题 分 半 最 多 需要 两 次 乘法 (如 果 N 是 
奇数 )。 这 里 ,我 们 又 写 出 一 个 递归 公式 并 将 其 解 出 。 简 单 的 直觉 避免 了 盲目 的 强行 处 理 。 
有 时 候 看 一 看 程序 能 够 进行 多 大 的 调整 而 不 影响 其 正确 性 倒是 很 有 意思 的 。 在 图 2-11 
中 , 第 3 行 到 第 4 行 实际 上 不 是 必须 的 ,因为 如 果 N 是 1, 那么 第 7 行将 做 同样 的 事情 。 第 7 
行 还 可 以 写成 
AL return Pow(X, N- 1) * X; 


而 不 影响 程序 的 正确 性 。 事实 上 , 程序 仍 将 以 O(log N)3 £1, 因为 乘法 的 序列 同 以 前 一 样 。 
不 过 ,下面 所 有 对 第 6 行 的 修改 都 是 不 可 取 的 , 虽然 它们 看 起 来 似乎 都 正确 : 
/* 6a */ — return Pow( Pow X, 2), N/2); 
/* 6b */ return Pow( Pow(X, N / 2), 2); 
/* 6C #/ return Pow(X, N /2 )* Pow(X, 8/2); 
6a 和 Gb 两 行 都 是 不 正确 的 ， 因 为 当 N 是 2 的 时 候 递归 调用 Pow 中 有 一 个 是 以 2 作为 
第 二 个 参数 。 这 样 , 程序 产生 一 个 无 限 循环 ， 将 不 能 往 下 进行 (最 终 导致 程序 崩溃 )。 
使 用 6c 行 影响 程序 的 效率 , 因为 此 时 有 两 个 大 小 为 N /2 的 递归 调用 而 不 是 一 个 。 分 析 
指出 , 其 运行 时 间 不 再 是 O(log N). 我 们 把 确定 新 的 运行 时 间作 为 练习 留 给 读者 。 
2.4.5 检验 你 的 分 析 
一 日 分 析 进 行 过 后 , 则 需要 看 一 看 答案 是 否 正确 , 是否 尽 可 能 地 好 。 一 种 实现 方法 是 编 
程 并 比较 实际 观察 到 的 运行 时 间 与 通过 分 析 所 描述 的 运行 时 间 是 否 相 匹配 。 当 N 扩大 一 倍 
mb. 则 线性 程序 的 运行 时 间 乘 以 因子 2, 二 次 程序 的 运行 时 间 乘 以 因子 4， 而 三 次 程序 则 乘 因 
子 8。 以 对 数 时 间 运行 的 程序 当 NN 增加 一 倍 时 其 运行 时 间 只 是 多 加 一 个 常数 ， 而 以 
O(N log N) 运 行 的 程序 则 花费 比 在 相同 环境 下 运行 时 间 的 两 倍 稍 多 一 些 的 时 间 。 如 果 低 阶 
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项 的 系数 相对 地 大 , 并 且 N 又 不 是 足够 地 大 , 那么 运行 时 间 的 变化 量 很 难 观察 清楚 。 例如， 
对 于 最 大 子 序列 和 问题 , 当 从 N = 10 增 到 N= 100 BY, 运行 时 间 的 变化 就 是 一 个 例子 。 单纯 
赁 实践 区 分 线性 程序 还 是 O(N log N ) 程 序 是 非常 困难 的 。 

验证 一 个 程序 是 否 是 O( 了 (NN)) 的 另 一 个 常用 的 技巧 是 对 N 的 某 个 范围 (通常 用 2 00491 
数 隔 开 ) 计 算 比 值 T(N)/ FOND, 其 中 T(N) 是 任 经 验 观察 到 的 运行 时 间 -。 如 果 f( NN) 是 运 
行 时 间 的 理想 近似 , 那么 所 算出 的 值 收 敛 于 一 个 正常 数 。 如 果 f(N) 估 计 过 大 , 则 算出 的 值 
WRF 05 如果 f(N) 估 计 过 低 从 而 程序 不 是 OC f( NN)) 的 , 那么 算出 的 值 发 散 。 

作为 一 个 例子 ,图 2-12 中 的 程序 段 计 算 两 个 随机 选取 出 并 小 于 或 等 于 N 的 互 异 正 整数 
互 素 的 概率 。( 当 N 增 大 时 , 结果 将 趋向 于 6 / x?。) 





Rel = 0; Tot = 0; 





for(i = Ni ist) 
forc j 1; j æ N; je 
[ 
Totes; 
if( Ced( i, j) == 1) 


Rel++; 


) 
printf( "Percentage of relatively prime pairs is Xfin", 
( double ) Rel / Tot ); 








P)2-12.fhitif PLU COO ORE 




















读者 应 该 能 够 立即 对 这 个 程序 做 出 分 析 , 图 2- 13 显示 实际 观察 到 的 该 例 程 在 一 台 具 体 
的 计算 机 上 的 运行 时 间 。 该 图 表 指出 ， 表 中 的 最 后 一 列 是 最 有 可 能 的 ,因此 所 得 出 的 这 个 分 
析 很 可 能 正确 。 注 意 , 在 O(N2) 和 O( NalogN) 之 间 没 有 多 大 差别 ,因为 对 数 增长 得 很 慢 。 
w uime) DN LIN: Try | 
100 022 | .002200 | .000022000 | 0004777 
200 osé | .001400 | .000007000 | .0002642 
300 18 | 001311 | 000004370 | .0002299 
400 207 | .001294 | .000003234 | .0002159 
| s 318 | .001272 | .000002544 | .0002047 
600 66 | .001294 | .000002157 | .0002024 
700 644 | 001314 | 000001877 | .0002006 
800 846 | .001322 | 000001652 | .0001977 
500 1086 | 001341 | .000001490 | .0001971 
1000 1362 | 001362 | .000001362 | .0001972 
1500 3249 | 001440 | -000000960 | .0001969 
2000 | 5949 | .001482 | .000000740 | .0001947 
4000 | 25720 | .001608 | .000000402 | 0001938 | 









































图 2-13 ”对 上 述 例 程 的 经 验 运行 时 间 


2.4.6 分 析 结 果 的 准确 性 

经 验 指出 , 有 时 分 析 会 估计 过 大 。 如 果 这 种 情况 发 生 ， 那么 或 者 需要 分 析 得 更 细 ( 一 般 通 过 
机 敏 的 观察 )， 或 者 可 能 是 平均 运行 时 间 显著 小 于 最 坏 情形 的 运行 时 间 而 又 不 可 能 对 所 得 的 界 
再 加 以 改进 。 对 于 许多 复杂 的 算法 ， 最 坏 的 界 通过 某 个 不 良 输入 是 可 以 达到 的 , 但 在 实践 中 它 
通常 是 估计 过 大 的 。 遗 憾 的 是 , 对 于 大 多 数 这 种 问题 ， 平均 情形 的 分 析 是 极其 复杂 的 (在 许多 情 
形 下 还 是 未 解决 的 )， 而 最 坏 情形 的 界 尽管 有 些 过 分 悲观 但 却 是 最 好 的 已 知 解析 结果 。 





[35] 
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本 章 对 如 何 分 析 程 序 的 复杂 性 给 出 一 些 提 示 。 遗憾 的 是 , 它 并 不 是 完善 的 分 析 指 南 。 简 
单 的 程序 通常 给 出 简单 的 分 析 , 但 是 情况 也 并 不 总 是 如 此 。 作 为 一 个 例子 , 在 本 书 稍 后 我 们 
将 看 到 一 个 排序 算法 ( 希 尔 排序 , 第 7 章 ) 和 一 个 保持 不 相交 集 的 算法 (第 8 章 ), 它们 大 约 都 
需要 20 行程 序 代 码 。 希 尔 排序 (Shellsort) 的 分 析 仍然 不 完善 ,而 不 相交 集 算法 分 析 非 常 困 
ME, 需要 许多 页 错综复杂 的 计算 。 不 过 , 我 们 在 这 里 遇 到 的 大 部 分 的 分 析 都 是 简单 的 , 它们 
涉及 到 对 循环 的 计数 。 
一 类 有 趣 的 分 析 是 下 界 分 析 , 我 们 尚未 接触 到 。 在 第 7 章 我 们 将 看 到 这 方面 的 一 个 例子 : 
证 明 任何 仅 通过 使 用 比较 来 进行 排序 的 算法 在 最 坏 的 情形 下 只 需要 ACN log N) 次 比较 。 下 
界 的 证 明 一 般 是 最 困难 的 ,因为 它们 不 只 适用 求解 某 个 问题 的 一 个 算法 而 是 适用 求解 该 问题 
的 一 类 算法 。 
在 本 章 结束 前 , 我 们 指出 此 处 描述 的 某 些 算法 在 实际 生活 中 的 应 用 。Gre WIEREN 
法 应 用 在 密码 学 中 。 特别 地 ,200 位 的 数字 自 乘 至 一 个 大 的 宕 次 (通常 为 另 一 个 200 位 的 数 ) 
而 在 每 乘 一 次 后 只 有 低 200 位 左右 的 数字 保留 下 来 。 由 于 这 种 计算 需要 处 理 200 位 的 数字 ， 
因此 效率 显然 是 非常 重要 的 。 求 冠 运算 的 直接 相 乘 会 需要 大 约 10” 次 乘法 ,而 上 面 描述 的 算 
法 只 需要 大 约 1 200 次 乘法 。 
练习 
2.1. 按 增 长 率 排列 下 列 函 数 : N, VN, NUS, N?, N log N, N log log N, N log N, 
N log(N2), 2/N, 2%, 27, 37, N'logN, N?, 指出 哪些 函数 以 相同 的 增长 率 增长 。 
2.2 设 TI(N)=O(f(N)) 和 Ts(N)=O(f(N))。 下 列 等 式 哪些 成 立 ? 
a. TI(N)+ T2(N)=O(f(N)) 
b. TI(N)- T:(N)=0(f(N)) 
c. IN- oa) 
d. Tı(N)=O(T:(N)) 
2.3. 哪个 函数 增长 得 更 快 :N log N, 还 是 NN e> 0)? 
2.4 证 明 对 任意 常数 A, log'N=o(N)。 
2.5 求 两 个 函数 f(N) 和 g(N), 8 FUN) O(g(N)) R g(N)% O(fA(N))。 
2.6 ”对 于 下 列 六 个 程序 片段 中 的 每 一 个 : 
a. 给 出 运行 时 间 分 析 ( 使 用 大 O)。 
b. 用 你 选择 的 程序 语言 编程 , 并 对 N 的 若干 具体 值 给 出 运行 时 间 。 
c. 用 实际 的 运行 时 间 与 你 所 做 的 分 析 进 行 比较 。 
(1) Sum = 0; 


for(i = 0; i <N; it) 
Sume; 





(2) Sum - 0; 
for( i = 0; 1 <N; i++) 
fort j «0: j <N; jt+) 
Sume+ 
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2.7 


2.8 


3) Sum = 0; 
for(i = 0; i <N; its) 
for( j= 0; je N * Ni jee) 
Sum++; 
(4) Sum = 0; 
for(i = 0; d <N; iss) 
for j = 0; j <i; j++) 
Sunes: 
(5) Sum = 0; 
for i = 0; i <N; 





(6) Sum = 0; 


假设 需要 生成 前 N 个 自然 数 的 一 个 随机 置换 。 例如 ,14, 3, 1, 5,2113, 1,4,2 

5 就 是 合法 的 置换 , 但 |5, 4, 1, 2, 11 却 不 是 , 因为 数 1 出 现 两 次 而 数 3 却 没有 。 这 个 

程序 常常 用 于 模拟 一 些 算法 。 我们 假设 存在 一 个 随机 数 生成 器 RandInt (i, j), EV 

相同 的 概率 生成 i 和 j 之 间 的 一 个 整数 。 下 面 是 三 个 算法 : 

1. 如 下 填 人 从 A[0] 到 ALN -了 的 数组 A; 为 了 填 入 ALi), 生成 随机 数 直到 它 不 同 
于 已 经 生成 的 A[0], ALI], ... , ALL LIRE, 再 将 其 坟 和 人 A[i]。 

2. 同 算法 (1), 但 是 要 保存 一 个 附加 的 数组 , 称 之 为 Used (用 过 的 ) 数 组 。 当 一 个 随机 
数 Ran 最 初 被 放 入 数组 A 的 时 候 , 置 Used Ran ] = 1。 这 就 是 说 ， 当 用 一 个 随机 
数 填 人 A Li], 可 以 用 一 步 来 测试 是 否 该 随机 数 已 经 被 使 用 ,而 不 是 像 第 一 个 算 
法 那样 (可 能 ) 进 行 i 步 测试 。 

3. 填写 该 数组 使 得 A Ci] m i+1。 然后 : 

for(i=1; i< Mbit +) 
Swap(&A[ i], SA[ RandInt( 0, i)” ); 

a. 证 明 这 三 个 算法 都 生成 合法 的 置换 ,并 且 所 有 的 置换 都 是 等 可 能 的 。 

b. 对 每 一 个 算法 给 出 你 能 够 得 到 的 尽 可 能 准确 的 期 望 的 运行 时 间 分 析 ( 用 大 O)。 

c. 分 别 写 出 程序 来 执行 每 个 算法 10 次 , 得 出 一 个 好 的 平均 值 。 对 N = 250, 500, 
1000, 2 000 运行 程序 1; 对 N=2500, 5000, 10000, 20000, 40000, 80000 运行 
程序 2; 对 N=10000, 20000, 40000, 80000, 160000, 320000, 640 000 运行 程序 3。 

d. 将 实际 的 运行 时 间 与 你 的 分 析 进 行 比较 。 

e. 每 个 算法 的 最 坏 情形 的 运行 时 间 是 什么 ? 

用 运行 时 间 的 估计 值 完成 图 2-2 中 的 表 , 当时 这 些 估计 值 太 长 无 法 模拟 。 插入 这 些 算 

法 的 运行 时 间 并 估计 计算 一 百 万 个 数 的 最 大 子 序列 和 所 需要 的 时 间 。 你 得 出 哪些 假 

设 ? 

计算 F(X) = DOS, AX 需要 多 少时 间 ? 

a. 用 简单 的 程序 执行 取 和 运算 。 

b. 使 用 2.4.4 节 的 例 程 计算 。 
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考虑 下 述 算法 ( 称 为 Horner 法 则 )。 计算 F(X) = 377, AX 的 值 : 


Poly = 0; 
for( i = N; i >= 0; i-- ) 
Poly = X * Poly + ALi]; 


a. 对 X=3，F(X)=4X4+8X3+X+2 指 出 该 算法 的 各 步 是 如 何 进行 的 。 

b. 解释 该 算法 为 什么 能 够 解决 这 个 问题 。 

c. 该 算法 的 运行 时 间 是 多 少 ? 

给 出 一 个 有 效 的 算法 来 确定 在 整数 A < A< A3< ... < An 的 数组 中 是 否 存 在 

整数 i 使 得 A; = i。 你 的 算法 的 运行 时 间 是 多 少 ? 

给 出 有 效 的 算法 (及 其 运行 时 间 分 析 ): 

a. 求 最 小 子 序列 和 。 

b. 求 最 小 的 正 子 序列 和 。 

c. 求 最 大 子 序列 乘积 。 

a. 编写 一 个 程序 来 确定 正 整 数 N 是 否 是 素数 。 

b. 你 的 程序 在 最 坏 情形 下 的 运行 时 间 是 多 少 ( 用 N 表示 )? (你 应 该 能 够 写 出 O 
(VN) 的 算法 程序 。) 

c. 4 B 等 于 N 的 二 进 制 表示 法 中 的 位 数 。B 的 值 是 多 少 ? 

d. 你 的 程序 在 最 坏 情形 下 的 运行 时 间 是 什么 (用 B 表示 )? 

e. 比较 确定 一 个 20( 二 进 制 ) 位 的 数 是 否 是 素数 和 确定 一 个 40( 二 进 制 ) 位 的 数 是 否 
是 素数 的 运行 时 间 。 

f. 用 NN 或 B 给 出 运行 时 间 更 合理 吗 ? 为 什么 ? 

Erastothenes 得 是 一 种 用 于 计算 小 于 N 的 所 有 素数 的 方法 。 我 们 从 制作 整数 2 到 N 

的 表 开始 。 我 们 找 出 最 小 的 未 被 删除 的 整数 i, 打印 i, 然后 删除 i, 2i, 3i，.……。 当 

i >VN 时 , 算法 终止 。 该 算法 的 运行 时 间 是 多 少 ? 

证 明 Xe 可 以 只 用 8 次 乘法 算出 。 

不 用 递归 , 写 出 快速 求 寡 的 程序 。 

给 出 用 于 快速 取 宕 运算 中 的 乘法 次 数 的 精确 计数 。( 提 示 : 考 虑 N 的 二 进 制 表示 ) 

程序 A 和 BB 经 分 析 发 现 其 最 坏 情形 运行 时 间 分 别 不 大 于 150N log N 和 和 N?。 如 果 可 

能 , 请 回答 下 列 问 题 : 

a. N 值 很 大 时 (N > 10000), 哪 一 个 程序 的 运行 时 间 有 更 好 的 保障 ? 

b. N 值 很 小 时 (N < 100), 哪 一 个 程序 的 运行 时 间 更 少 ? 

c. 对 于 N 21000, 哪 一 个 程序 平均 运行 得 更 快 ? 

d. 对 于 所 有 可 能 的 输入 , 程序 B 是 否 总 能 够 比 程序 A 运行 得 更 快 ? 

大 小 为 N 的 数组 A, 其 主要 元 素 是 一 个 出 现 次 数 超过 N Z2 的 元 素 (从 而 这 样 的 元 素 

最 多 有 一 个 )。 例 如 , 数组 

3,3,4,2,4,4,2, 4, 4 

有 一 个 主要 元 素 4, 而 数组 

3, 3, 4, 2, 4, 4, 2, 4 

没有 主要 元 素 。 如 果 没有 主要 元 素 , 那么 你 的 程序 应 该 指出 来 。 下 面 是 求解 该 问题 的 








一 个 算法 的 概要 : 

首先 ， 找 出 主要 元 素 的 一 个 候选 元 (这 是 难点 )。 这 个 候选 元 是 惟一 有 可 能 是 主要 元 
素 的 元 素 。 第 二 步 确定 是 否 该 候选 元 实际 上 就 是 主要 元 素 。 这 正好 是 对 数组 的 顺序 
搜索 。 为 找 出 数组 A 的 一 个 候选 元 , 构造 第 二 个 数组 B。 比较 A AD. 如 果 它 们 
相等 , 则 取 其 中 之 一 加 到 数组 月 中 ; 否则 什么 也 不 做 。 然 后 比较 43 和 A4， 同 样 地 ， 
如 果 它们 相等 , 则 取 其 中 之 一 加 到 BP; 否则 什么 也 不 做 。 以 该 方式 继续 下 去 直到 
读 完 这 个 的 数组 。 然 后 ,递归 地 寻找 数组 B 中 的 候选 元 ; 它 也 是 A 的 候选 元 。( 为 
什么 ?) 

a. 递归 如 何 终止 ? 

b. 当 N 是 奇数 时 ,如 何 处 理 ? 

c. 该 算法 的 运行 时 间 是 多 少 ? 

- 我 们 如 何 避 免 使 用 附加 数组 B? 

e. 编写 一 个 程序 求解 主要 元 素 。 





e 





“2.20 为 什么 在 我 们 的 计算 机 模型 中 假设 整数 具有 固定 长 度 是 重要 的 ? 
2.21 考虑 第 1 章 中 描述 的 字谜 游戏 问题 。 假设 我 们 固定 最 长 单词 的 大 小 为 10 个 字 
a. 设 R、C 和 WwW 分 别 表示 字谜 游戏 中 的 行 数 、 列 数 和 单词 个 数 ,那么 在 第 1 章 所 描 
述 的 算法 用 R, C 和 W 表示 的 运行 时 间 是 多 少 ? 
v. 设 单词 表 是 预先 排序 过 的 。 指 出 如 何 使 用 对 分 查找 得 到 一 个 运行 时 间 少 得 多 的 
2.22， 设 在 对 分 查找 程序 的 第 5 行 的 语句 是 Low = Mid 而 不 是 Low = Mid + 1。 这 个 程序 还 能 
正确 运行 凤 ? 
2.23 ”实现 对 分 查找 使 得 在 每 次 迭代 中 只 有 一 个 二 路 比较 
2.24. 设 算法 3( 图 2-7) 的 第 6 行 和 第 7 行 由 
/* 6*/  MaxLeftSum = MaxSubSum( A, Left, Center - 1 »H 
/* 7*/  MaxRightSun = MaxSubSum( A, Center, Right 2; 
代替 , 这 个 程序 还 能 正确 运行 吗 ? 
,2.25 立方 最 大 子 序列 和 算法 的 内 循环 执行 NON + DON + 2)76 次 最 内 层 代码 的 迭代 。 相 
应 的 二 次 算法 执行 NON +1)/2 次 迭代 。 而 线性 算法 执行 N 次 迭代 。 哪 种 模式 是 显 
然 的 ? 你 能 给 出 这 种 现象 的 组 合 学 解释 吗 ? 
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BIB R RAMI 


本 竟 讨 论 最 简单 和 最 基本 的 三 种 数据 结构 : 实际 上 ,. 每 一 个 有 意义 的 程序 都 将 明晰 地 至 
少 使 用 一 种 这 样 的 数据 结构 . 而 栈 则 在 程序 中 总 是 要 问 接地 用 到 ， 不 管 你 在 程序 中 是 查 做 了 
声明， 在 本 章 中 , 我 们 将 

* 介绍 抽象 数据 类 型 (ADT) 的 概念 

。 冰 述 如 何 对 表 进行 有 效 的 操作 

* 介绍 栈 ADT 及 其 在 实现 递归 方面 的 应 用 

* 介绍 队列 ADT 及 其 在 操作 系统 和 算法 设计 中 的 应 用 

因为 这 些 数据 结构 非常 重要 , 所 以 有 人 可 能 会 以 为 它们 很 难 实现 。 事 实 上 , EH TEM 
编程 ,主要 的 困难 是 要 经 过 足够 的 训练 来 写 出 好 的 一 般 只 有 几 行 大 小 的 通用 例 程 


3.1 抽象 数据 类 型 


序 设计 的 基本 法 则 之 一 是 例 程 不 应 超过 一 页 。 这 可 以 通过 把 程 
(module) 来 实现 。 每 个 模块 是 一 个 逻辑 单位 并 执行 某 个 特定 的 任务 ,1 
使 本 身 保持 很 小 。 模 块 化 有 几 个 优点 。 首 先 , 调试 小 程序 比 调试 大 程序 要 
多 个 人 同时 对 -个 模块 式 程序 编程 要 更 容易 - 第 三 , 一 个 写 得 好 的 模块 化 程序 
-个 例 程 中 ， 这 样 使 得 修改 起 来 会 更 容易 例如 , 需要 以 某 种 格式 编 1 
^ 让 一 个 例 程 去 实现 它 ， 如 果 打印 语句 分 散在 程序 各 处 , 那么 修改 所 费 的 时 间 
就 会 明显 地 拖 长 。 全 局 变量 和 副作用 是 有 害 的 观念 也 正 是 出 于 模块 化 是 有 益 的 想 

抽象 数据 类 型 (abstract data type、ADT) 是 一 些 操作 的 集合 。 抽 象 数据 类 
象 : 在 ADT 的 定义 中 根本 没 涉及 如 何 实现 操作 的 集合 。 这 可 以 看 作 是 模块 化 设 i 

对 诸如 表 、 集合、 图 和 它们 的 操作 一 起 可 以 看 作 是 抽象 数据 类 型 . 就 像 整数 、 实 数 和 不 
尔 漠 中 数据 类 型 一 样 。 整 数 、 实 数 及 布尔 量 有 与 它们 相关 的 操作 ,而 抽象 数据 类 型 也 有 与 它 
们 自己 相关 的 操作 -对 于 集合 ADT. 我 们 可 以 有 诸如 并 (union) 、 交 (intersection)、 测定 大 小 
(size) AERA (complement) SHE. 或者. 我 们 也 可 以 只 要 两 种 操作 : 并 和 查找 (find)、 这 
枫 种 操作 又 在 该 集合 上 定义 了 一 种 不 同 的 ADT 

我 们 的 基本 的 想法 是 , 这 些 操作 的 实现 只 在 程序 中 编写 一 次 、 而 程序 中 任何 其 他 部 分 需 
WEIR ADT 上 运行 其 中 的 一 种 操作 时 可 调用 适当 的 函数 来 进行 如 果 由 于 某 种 原 内 
常 要 改变 操作 的 细节 , 那么 通过 只 修改 运行 这 些 ADT 操作 的 例 程 应 该 容易 实现 。 在 理想 的 
情况 下 这 种 改变 对 于 程序 的 其 余部 分 通常 是 完全 透明 的 

对 于 每 种 ADT 并 不 存在 什么 法 则 来 告诉 我 们 必须 要 有 哪些 操作 ; 这 是 一 个 设计 决策 
错误 处 理 和 关系 的 重组 (在 适当 的 地 方 ) 一 般 也 取决 于 程序 设计 者- 我 们 在 本 章 中 将 要 讨论 的 
这 :种 数据 结构 是 ADT 的 最 基本 的 例子 . 我 们 将 会 看 到 它们 中 的 每 一 种 是 如 何以 多 种 方法 
实现 的 , 不 过 , 使 用 它们 的 程序 却 没 有 必要 知道 它们 是 如 何 正确 实现 的 


3.2 表 ADT 
我 们 将 处 理 一 般 的 形 如 AY. Az. Assess Ay 的 表 我 们 说 , 这 个 表 的 大 小 是 N。 我 
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们 称 大 小 为 0 的 表 为 室 表 (empty list). 

对 于 除 空 表 外 的 任何 表 , 我 们 说 AL. USE A;( 或 继 A, 之 后 ) 并 称 A-G < N) 前 驱 A; 
(i > 1)。 表 中 的 第 一 个 元 素 是 A1, 而 最 后 一 个 元 素 是 Av。 我 们 将 不 定义 A, 的 前 驱 元 , 也 
不 定义 Ay 的 后 继 元 。 元 素 A; 在 表 中 的 位 置 为 1。 为 了 简单 起 见 , 我 们 在 讨论 中 将 假设 表 中 
的 元 素 是 整数 , 但 一 般 说 来 任意 的 复元 素 也 是 允许 的 。 

与 这 些 “ 定 义 "相关 的 是 我 们 要 在 表 ADT 上 进行 的 操作 的 集合 。 PrintList 和 MakeEmpty 
是 常用 的 操作 , 其 功能 显而易见 ;Find 返回 关键 字 首 次 出 现 的 位 置 ，Insert 和 Delete 一 般 是 
从 表 的 某 个 位 置 插入 和 删除 某 个 关键 字 ; 而 FindKzh 则 返回 某 个 位 置 上 (作为 参数 而 被 指定 ) 
的 元 素 。 如 果 34, 12, 52, 16, 12 是 一 个 表 , 则 Find (52) 会 返回 3; Insert (X , 3) 可 能 把 表 
变 成 34, 12, 52, X, 16, 12( 如 果 我 们 在 给 定位 置 的 后 面 插入 的 话 ); 而 Delete (52) 则 将 该 表 
变 为 34, 12, X. 16, 12。 

当然 , 一 个 函数 的 功能 怎样 才 算 怡 当 , 完全 要 由 程序 设计 员 来 确定 , 就 像 对 特殊 情况 的 
处 理 那样 (例如 ， 上述 Find (1) 返 回 什么 ?)。 我 们 还 可 以 添加 一 些 运算 ， 比 如 Nert 和 Previ- 

[42] ous, 它们 会 取 一 个 位 置 作为 参数 并 分 别 返回 其 后 继 元 和 前 驱 元 的 位 置 。 

3.2.1 表 的 简单 数组 实现 

对 表 的 所 有 操作 都 可 以 通过 使 用 数组 来 实现 。 虽 然 数组 是 动态 指定 的 , 但 是 还 是 需要 对 
表 的 大 小 的 最 大 值 进行 估计 。 通 常 需要 估计 得 大 一 些 , 从 而 会 浪费 大 量 的 空间 。 这 是 严重 的 
局 限 , 特别 是 在 存在 许多 未 知 大 小 的 表 的 情况 下 。 

数组 实现 使 得 PrintList 和 Find 正如 所 预期 的 那样 以 线性 时 间 执行 ,而 FindKih 则 花费 常 
数 时 间 。 然 而 , 插 人 和 删除 的 花费 是 昂贵 的 。 例 如 ,在 位 置 0 的 插入 (这 实际 上 是 做 一 个 新 的 第 
一 元 素 ) 首 先 需 要 将 整个 数组 后 移 一 个 位 置 以 空 出 空间 来 ， 而 删除 第 一 个 元 素 则 需要 将 表 中 的 所 有 
元 素 前 移 一 个 位 置 ,因此 这 两 种 操作 的 最 坏 情况 为 O(N)。 平 均 来 看 ， 这 两 种 运算 都 需要 移动 表 
的 一 半 的 元 素 , 因此 仍然 需要 线性 时 间 。 只 通过 N 次 相继 插入 来 建立 一 个 表 将 需要 二 次 时 间 。 

因为 插入 和 删除 的 运行 时 间 是 如 此 的 慢 以 及 表 的 大 小 还 必须 事先 已 知 ， 所 以 简单 数组 一 
般 不 用 来 实现 表 这 种 结构 。 
3.2.2 链表 

为 了 避免 插入 和 删除 的 线性 开销 , 我 们 需要 允许 表 可 以 不 连续 存储 ， 否则 表 的 部 分 或 全 
部 需要 整体 移动 。 图 3-1 表达 了 链表 (linked list) 的 一 般 想 法 。 

链表 由 一 系列 不 必 在 内 存 中 相连 的 结构 组 成 。 每 一 个 结构 均 含有 表 元 素 和 指向 包含 该 元 
索 后 继 元 的 结构 的 指针 。 我 们 称 之 为 Nert 指针 。 最 后 一 个 单元 的 Nert 指针 指向 NULL; 该 
值 由 C 定义 并 且 不 能 与 其 他 指针 混淆 。ANSI CHE NULL 为 零 。 

我 们 回忆 一 下 ， 指针 变量 就 是 包含 存储 另外 某 个 数据 的 地 址 的 变量 。 因 此 , 如果 P 被 声 
明 为 指向 一 个 结构 的 指针 , 那么 存储 在 P. 中 的 值 就 被 解释 为 主 存 中 的 一 个 位 置 , 在 该 位 置 能 
饮 找 到 一 个 结构 。 该 结构 的 一 个 域 可 以 通过 P -> FieldNane 访问 , 其 中 FieldName 是 我 们 
想 要 考察 的 域 的 名 字 。 图 3-2 指出 图 3-1 中 表 的 具体 表示 。 这 个 表 含 有 五 个 结构 ,恰好 在 内 
存 中 分 配给 它们 的 位 置 分 别 是 1000, 800, 712, 992 和 692. 第 一 个 结构 的 指针 含有 值 800, 它 
提供 了 第 二 个 结构 所 在 的 位 置 。 其 余 每 个 结构 也 都 有 一 个 指针 用 于 类 似 的 目的 。 当 然 ， 为 了 访 
问 该 表 , 我 们 需要 知道 在 哪里 能 够 找到 第 一 个 单元 。 指针 变量 就 能 够 用 于 这 个 目的 。 重 要 的 是 
要 记 住 , 一 个 指针 就 是 一 个 数 。 本 章 其 余部 分 我 们 将 用 箭头 画 出 指针 ， 因 为 这 样 更 直观 。 
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图 3-1 一 个 链表 
T f r | [ 
A, 800] A^ moj A. [992 A. 1692] As [ol 
1000 Lara Tm 392 ! or 
图 3-2 带 有 指针 具体 值 的 链表 


为 了 执行 PrintList( 工 ) 或 Find (L, Key), 我 们 只 要 将 一 个 指针 传递 到 该 表 的 第 一 个 元 
K, 然后 用 一 些 Next 指针 穿越 该 表 即 可 。 这 种 操作 显然 是 线性 时 间 , 虽然 这 个 常数 可 能 会 
比 用 数组 实现 时 要 大 。FindKth 操作 不 如 数组 实现 的 效率 高 ; FindKih(L . iE O(i) 时 间 
以 显 性 方式 穿越 链表 而 完成 。 在 实践 中 这 个 界 是 保守 的 ,因为 调用 FindKth 常常 是 以 ( 按 i) 
排序 的 方式 进行 。 例 如 , FindKth( L, 2). FindKth(L. 3). FindKth( L, 4) 以 及 FindKth( L, 6) 可 
通过 对 表 的 一 次 扫描 同时 实现 。 

删除 命令 可 以 通过 修改 一 个 指针 来 实现 。 图 3-3 给 出 在 原 表 中 删除 第 三 个 元 素 的 结果 : 


[THES HT 


图 3-3 从 链表 中 删除 


插入 命令 需要 使 用 一 次 malloc 调用 从 系统 得 到 一 个 新 单元 (后 面 将 详细 论述 ) 并 在 此 后 
执行 两 次 指针 调整 。 其 一 般 想法 在 图 3-4 中 给 出 , 其 中 的 虚线 表示 原来 的 指针 。 
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图 3-4 ”向 链表 插入 


3.2.3 程序 设计 细节 

上 面 的 描述 实际 上 足以 使 每 一 部 分 都 能 正常 工作 , 但 还 是 有 几 处 地 方 可 能 会 出 问题 。 首 
先 , 并 不 存在 从 所 给 定义 出 发 在 表 的 前 面 插入 元 素 的 真正 显 性 的 方法 。 第 二 ， 从 表 的 前 面 实 
行 删 除 是 一 个 特殊 情况 ,因为 它 改变 了 表 的 起 始 端 ; URP OLIM IS UR EA 第 三 
个 问题 涉及 一 般 的 删除 。 虽 然 上 述 指针 的 移动 很 简单 ， 但 是 删除 算法 要 求 我 们 记 住 被 删除 元 
素 前 面 的 表 元 。 

事实 上 , 稍 做 一 个 简单 的 变化 就 能 够 解决 所 有 这 三 个 问题 。 我 们 将 留 出 -个 标志 结 点 , 有 时 
候 称 之 为 表 头 (header) 或 哑 结 点 (dummy node)。 这 是 通常 的 一 种 习惯 ， 在 后 面 将 会 多 次 看 到 它 。 我 
们 约定 , 表 头 在 位 置 0 处 。 图 3-5 表示 一 个 带 有 表 头 的 链表 , ERA AL. A2，…… Aso 

为 避免 删除 操作 相关 的 一 些 问题 ,我 们 需要 编写 例 程 FindPrevious , 它 将 返回 我 们 要 删除 的 
表 元 的 前 驱 元 的 位 置 。 如 果 我 们 使 用 表 头 ， 那么 当 我 们 删除 表 的 第 一 个 元 素 时 ，FindPrevious 
将 返回 表 头 的 位 置 。 头 结 点 的 使 用 多 少 是 有 些 争议 的 。 一 些 人 认为 , 添加 假想 的 单元 只 是 为 了 
避免 特殊 情形 ,这 样 的 理由 不 够 充足 ; 他 们 把 头 结 点 的 使 用 看 成 与 老式 的 随意 删改 没有 多 大 区 
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图 3-5 具有 表 头 的 链表 


别 。 不 过 即使 这 样 , 我们 还 是 在 这 里 使 用 它 , 这 完全 因为 它 使 我 们 能 够 表达 基本 的 指针 操作 且 
又 不 致使 特殊 情形 的 代码 含混 不 清 。 除 此 之 外 , 要 不 要 使 用 表 头 则 是 属于 个 人 兴趣 的 问题 。 

作为 例子 , 我 们 将 把 这 些 表 ADT 的 半数 的 例 程 编写 出 来 。 首 先 , 在 图 3-6 中 给 出 我 们 需 
要 的 声明 。 按 照 C 的 约定 , 作为 类 型 的 List( 表 ) 和 Position( 位 置 ) 以 及 函数 的 原型 都 列 在 所 
谓 的 .h 头 文件 中 。 具 体 的 Node( 结 点 ) 声 明 则 在 .c 文 件 中 。 





wifndef _List_H 


struct Node; 

typedef struct Node *PtrToNode; 
typedef PtrToNode List; 
typedef PtrToNode Position; 


List MakeEmpty( List L ); 

int IsEmpty( List L); 

int IsLast( Position P, List L ); 

Position Find( ElementType X, List L ); 

void Delete( ElementType X, List L ); 

Position FindPrevious( ElementType X, List L ); 
void Insert( ElementType X, List L, Position P ); 
void DeleteList( List L); 

Position Header( List L ); 

Position First( List L); 

Position Advance( Position P ); 

ElementType Retrieve( Position P ); 


wendif — /* List. H */ 
/* Place in the implementation file */ 
struct Node 

ElementType Element; 


Position ^ Next; 


h 











图 3-6 链表 的 类 型 声明 
我 们 将 编写 的 第 一 个 函数 是 测试 空 表 的 。 当 我 们 编写 涉及 指针 的 任意 数据 结构 的 代码 
时 ,最 好 总 是 要 先 画 出 一 张 图 来 。 图 3-7 就 表示 一 个 空 表 ; 按照 这 个 图 , 很 容易 写 出 图 3-8 中 


的 函数 。 

下 一 个 函数 在 图 3-9 中 表 出 ， 它 测试 当前 的 元 素 是 否 是 表 的 最 后 一 个 元 素 , 假设 这 个 元 
素 是 存在 的 。 

我 们 要 写 的 下 一 个 例 程 是 Findo Find 在 图 3-10 中 表 出 ， 它 返回 某 个 元 素 在 表 中 的 位 


既 。 第 2 行 用 到 与 (&&&) 操 作 走 了 捷径 ,， 即 如 果 与 (and) 运 算 的 前 半 p E 





部 分 为 假 , 那么 结果 就 自动 为 假 , 而 后 半 部 分 则 不 再 执行 。 

有 些 编程 人 员 发 现 递归 地 编写 Find 例 程 皮 有 吸引 力 , 大 概 是 
因为 这 样 可 能 避免 元 长 的 终止 条 件 。 后 面 将 看 到 , 这 是 一 个 非常 糟 
糕 的 想法 , 我 们 要 不 惜 一 切 代价 避免 它 。 


图 3-7 带 表 头 的 空 表 
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| /* Return true if L is empty */ 
| int 
| IsEmptyC List L) 


return L-»Next == NULL; 
} 





138 ”测试 一 个 链表 是 否 是 空 表 的 函数 





/* Return true if P is the last position in list L */ 
/* Parameter L is unused in this implementation */ 





int 
TsLast( Position P, List L) 





: | 
return P->Next == NULL; | 

] 
j 





图 3.9 测试 当前 位 置 是 否 是 链表 的 末尾 的 函数 





/* Return Position of X in L; NULL if not found */ 


Position 

Find( ElementType X, List 上 ) 

t 

Position P; 

ye ae/ P = L->Next; 
7 2*/ while( P !« NULL && P->Element != X ) 
Jt P = PooNext; 
ye at] return P; 











图 3-10 Find 例 程 
第 四 个 例 程 是 删除 表 L 中 的 某 个 元 素 X。 我 们 需要 决定 : 如 果 X 出 现 不 止 一 次 或 者 根 
本 就 没有 , 那么 我 们 做 什么 ?我 们 的 例 程 将 删除 第 一 次 出 现 的 X, 如 果 X 不 在 表 中 我 们 就 什 
么 也 不 做 。 为 此 , 我 们 通过 调用 FindPrevious 函数 找 出 含有 X 的 表 元 的 前 驱 元 P。 实 现 删除 
例 程 的 程序 在 图 3-11 中 表 出 。 FindPrevious 例 程 类 似 于 Find, 它 在 图 3-12 中 列 出 。 





/* Delete first occurrence of X from a list */ 
/* Assume use of a header node * 


Pte ElementType X, List L ) 


Position P, TmpCell; 


i Mslast( P, L) ) /* Assumption of header use */ 
J* X is found; delete it */ 
TmpCell = P->Next; 

P->Next = TmpCell-»Next; /* Bypass deleted cell */ 
free( TmpCel? ); 





| 
| P = FindPrevious( X, L ); 





图 3-11 链表 的 删除 例 程 
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/* If X is not found, then Next field of returned */ 
/* Position is NULL */ 
/* Assumes a header */ 


Position 
FindPrevious( ElementType X, List L ) 
t 


Position P; 

/* 1 Pel; 

7i while( P-»Next != NULL && P->Next->Element != X ) 
ft ay P = P->Next; 


nay return P; 
) 





图 3-12. FindPrevious — 9-45 Delete 一 起 使 用 的 Find 例 程 


我 们 要 写 的 最 后 一 个 例 程 是 插入 例 程 。 将 要 插入 的 元 素 与 表 L 和 位 置 P 一 起 传人 。 这 
个 Insert 例 程 将 一 个 元 素 插 和 人 到 由 P 所 指示 的 位 置 之 后 。 我 们 这 个 决定 有 随意 性 ， 它 意味 着 
插入 操作 如 何 实现 并 没有 完全 确定 的 规则 。 很 有 可 能 将 新 元 素 插 入 到 位 置 P 处 ( 即 在 位 置 P 
处 当时 的 元 素 的 前 面 ), 但 是 这 么 做 则 需要 知道 位 置 P 前 面 的 元 素 。 它 可 以 通过 调用 Find- 
Previous 而 得 到 。 因 此 重要 的 是 要 说 明 你 要 干什么 。 图 3-13 完成 这 些 任务 。 





/* Insert (after legal position P) */ 
/* Meader implementation assumed */ 
/* Parameter L is unused in this implementation */ 


void 
Insert( ElementType X, List L, Position P ) 


Position TmpCell; 


Pr TmpCe11 = malloc( sizeof( struct Node ) ); 
Viale A if( TmpCell == NULL ) 

ye 3] FatalError( “Out of space!!!" ); 

/* sn TmpCell-»Element = X; 

/* 5*/ TmpCell-»Next = P-»Next; 

/* 6*/ P-»Next = TmpCell; 











313 链表 的 插入 例 程 


注意 , 我 们 已 经 把 表 传递 给 Insert 例 程 和 IsLast H, 尽管 它 从 未 被 使 用 过 。 之 所 以 
这 么 做 , 是 因为 别 的 实现 方法 可 能 会 需要 这 些 信息 , 因此 , 若 不 传递 表 L 有 可 能 使 得 使 用 
ADT 的 想法 失败 .2 

除 Find 和 FindPrevious 例 程 外 (还 有 例 程 Delete , 它 调用 FindPrevious) , 我 们 已 经 编码 
的 所 有 操作 均 需 O(1) 时 间 。 这 是 因为 在 所 有 的 情况 下 ， 不 管 表 有 多 大 都 只 执行 固定 数目 的 
指令 。 对 于 例 程 Find Fl FindPrevious , 在 最 坏 的 情形 下 运行 时 间 是 OCN) , 因为 此 时 若 元 素 
未 找到 或 位 于 表 的 末尾 则 可 能 遍历 整个 表 。 平均 来 看 , 运行 时 间 是 ON), 因为 必须 平均 扫 


描 半 个 表 。 


O REAM, 不 过 有 些 编译 器 会 发 出 警告 。 
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在 图 3-6 中 列 出 的 其 他 例 程 相当 简单 。 我 们 也 可 以 编写 一 个 例 程 来 实现 Previous. MA 
这 些 将 留 作 练习 。 
3.2.4 常见 的 错误 
最 常 遇 到 的 错误 是 你 的 程序 因 来 自 系 统 的 坏 手 的 错误 信息 而 崩溃 ， 比 如 ”memory access 
violation" "segmentation violation" 这 种 信息 通常 意味 着 有 指针 变量 包含 了 伪 地 址 。 一 个 通常 
的 原因 是 初始 化 变量 失败 。 例 如 , 如 果 图 3-14 中 的 第 一 行 遗漏, 那么 P 就 是 未 定义 的 ,当然 
也 就 不 可 能 指向 内 存 的 有 效 部 分 。 另 一 个 典型 的 错误 是 关于 图 3-13 的 第 6 fT WR PE 
NULL, 则 指向 是 非法 的 。 这 个 函数 知道 P 不 是 NULL, 所 以 例 程 没 有 问题 。 当 然 ， 你 应 该 
仔细 考虑 , 使 得 调用 Insert 的 例 程 能 保证 这 一 点 。 无 论 何 时 只 要 你 确定 一 个 指向 , 那么 你 就 
必须 保证 该 指针 不 是 NULL。 有 些 C 编译 器 隐 式 地 为 你 做 这 种 检查 , 不 过 这 并 不 是 CC 标准 的 
一 部 分 。 当 你 将 一 个 程序 从 一 个 编译 器 移 至 另 一 个 编译 器 下 时 , 你 可 能 发 现 它 不 再 正常 运 
fi. 这 就 是 这 种 错误 常见 的 原因 之 一 。 
; - 





/* Incorrect DeleteList algorithm */ 


void 
Deletelist( List L ) 
{ 

Position P; 


P = L->Next; /* Header assumed */ 
L-»Next = NULL; 

while( P !« NULL ) 

( 


free( P ); 
P = P->Next; 
} 
} 
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图 3-14 ”删除 一 个 表 的 不 正确 的 方法 

第 二 种 错误 涉及 何 时 使 用 或 何 时 不 使 用 malloc 来 获取 一 个 新 的 单元 。 我 们 必须 记 住 , 声 
明 指向 一 个 结构 的 指针 并 不 创建 该 结构 ,而 只 是 给 出 足够 的 空间 容纳 结构 可 能 会 使 用 的 地 
址 。 创 建 尚未 被 声明 过 的 记录 的 惟一 方法 是 使 用 malloc 库 函 数 。malloc (HowManyBytes) 奇 
迹 般 地 使 系统 创建 一 个 新 的 结构 并 返回 指向 该 结构 的 指针 。 另 一 方面 ,如 果 你 想 使 用 一 个 指 
针 变量 沿 着 一 个 表 行 进 , 那 就 没有 必要 创建 新 的 结构 ; 此 时 不 宜 使 用 malloc 命令 。 非 常 老 的 
编译 器 需要 一 个 类 型 转换 (type cast) 使 得 赋值 操作 符 两 边 相 符 。C 库 提供 了 malloc 的 其 他 形 
式 , 如 calloc。 这 两 个 例 程 都 要 求 包含 stdlib.h 头 文件 。 

当 有 些 空间 不 再 需要 时 ,你 可 以 用 free 命令 通知 系统 来 回收 它 。free( 了 ) 的 结果 是 : P IE 
在 指向 的 地 址 没 变 , 但 在 该 地 址 处 的 数据 此 时 已 无 定义 了 。 

如 果 你 从 未 对 一 个 链表 进行 过 删除 操作 ,那么 调用 malloc 的 次 数 应 该 等 于 表 的 大 小 , 若 
有 表 头 则 再 加 1。 少 一 点 儿 你 就 不 可 能 得 到 一 个 正常 运行 的 程序 ; 多 一 点 儿 你 就 会 浪费 空间 
并 可 能 要 浪费 时 间 。 侦 尔 会 出 现 当 你 的 程序 使 用 大 量 空间 时 ， 系统 可 能 不 能 满足 你 对 新 单元 
的 要 求 。 此 时 返回 的 是 NULL 指针 。 

在 链表 中 进行 一 次 删除 之 后 , 再 将 该 单元 释放 通常 是 一 个 好 的 想法 ,特别 是 当 存在 许多 
的 插入 和 删除 括 杂 在 一 起 而 内 存 会 出 现 问题 的 时 候 。 对 于 要 被 放弃 的 单元 , 应 该 需要 一 个 临 
时 的 变量 ,因为 在 撤除 指针 的 工作 结束 后 , 你 将 不 能 再 引用 它 。 作 为 一 个 例子 , 图 3-14 的 代 
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码 就 不 是 删除 整个 表 的 正确 的 方法 (虽然 在 有 些 系统 上 它 能 够 运行 )。 

图 3-15 显示 了 删除 工作 的 正确 方法 。 处 理 闲置 空间 的 工作 未 必 很 快 完成 ,因此 你 可 能 
要 检查 看 是 否 处 理 的 例 程 会 引起 性 能 下 降 , 如 果 是 则 要 考虑 周密 。 本 书 作者 写 了 一 个 程序 
( 见 练习 ), 通过 对 处 理 空间 (10 000 个 结 点 ) 的 周密 考虑 , 该 程序 加 快 了 25 倍 。 事 实 上 , 单元 
以 相当 特殊 的 顺序 被 释放 ,这 显然 会 引起 另 一 个 线性 程序 花费 O(N log N) 时 间 去 处 理 N 个 
单元 。 





/* Correct DeleteList algorithm */ 


void 
DeleteList( List L ) 
{ 


Position P, Tap; 


ie WA P = L-»Next; /* Header assumed */ 
aep L-»Next = NULL; 
t while( P != NULL ) 

{ 
feats. Tmp = P->Next; 
fts free( P); 
/* 6 P = Tmp; 

! 

! 








图 3-15 “删除 表 的 正确 方法 

最 后 提 一 个 警告 : nalloc(sizeof(PtrToNode) ) 是 合法 的 , 但 是 它 并 不 给 结构 体 分 配 足够 
的 空间 。 它 只 给 指针 分 配 一 个 空间 。 
3.2.5 XU 

有 时 候 以 倒序 扫描 链表 很 方便 。 标 准 实现 方法 此 时 无 能 为 力 , 然而 解决 方法 却 很 简单 。 
只 要 在 数据 结构 上 附加 一 个 域 , 使 它 包含 指向 前 一 个 单元 的 指针 即 可 。 其 开销 是 一 个 附加 的 
链 , 它 增 加 了 空间 的 需求 , 同时 也 使 得 插入 和 删除 的 开销 增加 一 倍 , 因为 有 更 多 的 指针 需要 
定位 。 另 一 方面 , 它 简化 了 删除 操作 ,因为 你 不 再 被 迫使 用 一 个 指向 前 驱 元 的 指针 来 访问 一 
个 关键 字 ; 这 个 信息 是 现成 的 。 图 3-16 表示 一 个 双 链表 (doubly linked list)。 
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图 3-16 一 个 双向 链表 






































3.2.6 循环 链表 

让 最 后 的 单元 反 过 来 直 指 第 一 个 单元 是 一 种 流行 的 做 法 。 它 可 以 有 表 头 ， 也 可 以 没有 表 
头 (车 有 表 头 , 则 最 后 的 单元 就 指向 它 )， 并 且 还 可 以 是 双向 链表 (第 一 个 单元 的 前 驱 元 指针 
指向 最 后 的 单元 )。 这 无 疑 会 影响 某 些 测试 ， 不 过 这 种 结构 在 某 些 应 用 程序 中 却 很 流行 。 图 
3-17 显示 了 一 个 无 表 头 的 双向 循环 链表 。 
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图 3-17 一 个 双向 循环 链表 
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3.2.7 PIF 

我 们 提供 三 个 使 用 链表 的 例子 。 第 一 例 是 表示 一 元 多 项 式 的 简单 方法 。 第 二 例 是 在 某 些 
特殊 情况 下 以 线性 时 间 进 行 排序 的 一 种 方法 。 最 后 , 我 们 介绍 一 个 复杂 的 例子 , 它 说 明了 链 
表 如 何 用 于 大 学 的 课程 注册 。 
多 项 式 ADT 

我 们 可 以 用 表 来 定义 一 种 关于 一 元 (具有 非 负 次 寡 ) 多 项 式 的 抽象 数据 类 型 。 令 F(X) 
= NU AX! 如 果 大 部 分 系数 非 零 ， 那么 我 们 可 以 用 一 个 简单 数组 来 存储 这 些 系数 。 然 后， 
np Ad 对 多 项 式 进 行 加 、 减 、 乘 、 微 分 及 其 他 操作 的 例 程 。 此 时 , 我 们 可 以 使 用 在 图 
3-18 中 给 出 的 类 型 声明 。 这 时 , 我 们 就 可 编写 进行 各 种 不 同 操作 的 例 程 了 。 加 法 和 乘法 是 两 
种 可 能 的 运算 ; 它们 在 图 3-19 到 图 3-21 中 列 出 。 忽 略 将 输出 多 项 式 初始 化 为 零 的 时 间 , 则 
乘法 例 程 的 运行 时 间 与 两 个 输入 多 项 式 的 次 数 的 乘积 成 正比 。 它 适合 大 部 分 项 都 有 的 稠密 多 
项 式 , 但 如 果 PI(X) = IOXIm+ SX 1 上 且 P(X) = 3X9? - 2XV? « 11X + 5, 那么 
运行 时 间 就 可 能 不 可 接受 了 。 可 以 看 出 , 大 部 分 的 时 间 都 花 在 了 乘 以 0 和 单 步调 试 两 个 输入 
多 项 式 的 大 量 不 存在 的 部 分 上 。 这 总 是 我 们 不 愿 看 到 的 。 











typedef struct 
{ 


int HighPower; 
) * Polynomial; 





| int CoeffArray[ MaxDegree + 1]; 





图 3-18 多 项 式 ADT 的 数组 实现 的 类 型 声明 





void 
ZeroPolynomial( Polynomial Poly ) 
$ 


int i; 


for( i = 0; i <= MaxDegree; i++ ) 
Poly-»CoeffArray[ i ] = 0; 
Poly-»HighPower = 0; 
! 








183-19. 将 多 项 式 初始 化 为 零 的 过 程 





void 
AddPolynomial( const Polynomial Polyl, 

const Polynomial Poly2, Polynomial PolySum ) 
{ 


int i; 


ZeroPolynomial( PolySum ); 
PolySun-»HighPower = Max( Polyl-»HighPower, 
Poly2->HighPower ); 


for( i = PolySum->HighPower; i >= 0; i-- ) . 
PolySun-»CoeffArray[ i ] = Polyl-»CoeffArray[ i J 
+ Poly2-»CoeffArray[ i J; 











图 3-20 两 个 多 项 式 相 加 的 过 程 
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void 
MultPolynomial( const Polynomial Polyl, 
: const Polynomial Poly2, Polynomial PolyProd ) 


inti, j; 


ZeroPolynomial( PolyProd ); 
PolyProd-»HighPower = Polyl->HighPower + Poly2-»HighPower; 


if( PolyProd->HighPower > MaxDegree ) 
Error( "Exceeded array size" ); 
else 
for( i = 0; i <= Polyl->HighPower; i++ ) 
for( j = 0; j <= Poly2->HighPower; j++ ) 
PolyProd->Coeffarray( i + j ] += 
Polyl-»CoeffArray[ i ] * 
Poly2-»CoeffArray[ j J; 











3-21 两 个 多 项 式 相 乘 的 过 程 


另 一 种 方法 是 使 用 单 链表 (singly linked list)。 多 项 式 的 每 一 项 含 在 一 个 单元 中 , 并 且 这 
些 单元 以 次 数 递减 的 顺序 排序 。 例 如 , 图 3-22 中 的 链表 表示 Pi(X) 和 P,(X)。 此 时 我 们 可 


以 使 用 图 3-23 


的 声明 。 
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图 3-22 两 个 多 项 式 的 链表 表示 




































































typedef struct Node *PtrToNode; 
struct Node 
int Coefficient; 
int Exponent; 
PtrToNode Next; 
K 
typedef PtrToNode Polynomial; /* Nodes sorted by exponent */ 








18323 多 项 式 ADT 链表 实现 的 类 型 声明 


上 述 的 操作 将 很 容易 实现 。 惟 一 的 潜在 困难 在 于 ， 当 两 个 多 项 式 相 乘 的 时 候 所 得 到 的 多 
项 式 必须 合并 同类 项 。 这 可 以 有 多 种 方法 实现 , 我 们 把 它 留 作 练习 。 


基数 排序 


使 用 链表 的 第 二 个 例子 叫做 基数 排序 (radix sort)。 基数 排序 有 了 时 也 称 为 卡 式 排序 (card 


sort), 因为 直到 





现代 计算 机 出 现 之 前 , 它 一 直 用 于 对 老式 穿孔 卡 的 排序 。 


如 果 我 们 有 N 个 整数 , 范围 从 1 到 M( 或 从 0 到 M - 1), 我 们 可 以 利用 这 个 信息 得 到 


52) aen tH. BEAR AH (bucket sort)。 我 们 留置 一 个 数组 , 称 之 为 Count， 大 小 为 
54| M ,并 初始 化 为 零 。 于 是 ，Count 有 M 个 单元 (或 桶 )， 开始 时 他 们 都 是 空 的 。 当 A, BORA 





È, BPS 4i 





时 Count[ A;] 增 1。 在 所 有 的 输入 被 读 进 以 后 , 扫描 数组 Count, 打印 输出 排 好 序 的 表 。 该 算 
法 花费 O(M + N); 其 证 明 留 作 练 习 。 如 果 M = 6B(N), 则 桶 式 排序 为 O(N)。 

基数 排序 是 这 种 方法 的 推广 。 了 解 方 法 含义 的 最 容易 的 方式 就 是 举例 说 明 。 设 我 们 有 
10 个 数 , 范围 在 0 到 999 之 间 , 我 们 将 其 排序 。 一 般 说 来 , 这 是 0 到 N^ — 1 间 的 NN 个 数 , p 
是 某 个 常数 。 显 然 , 我 们 不 能 使 用 桶 式 排序 , 那样 桶 就 太 多 了 。 我 们 的 策略 是 使 用 多 趟 桶 式 
排序 。 自 然 的 算法 就 是 通过 最 高 (有 效 )“ 位 "(对 基数 N 所 取 的 位 ) 进 行 桶 式 排序 ,然后 是 对 
次 最 高 (有 效 ) 位 进行 , 等 等 。 这 种 算法 不 能 得 出 正确 结果 , 但 是 , 如 果 我 们 用 最 低 ( 有 效 ) 
“位 "优先 的 方式 进行 桶 式 排序 , 那么 算法 将 得 到 正确 结果 。 当 然 , 有 可 能 多 于 一 个 数落 人 相 
同 的 桶 中 , 但 有 别 于 原始 的 桶 式 排序 , 这 些 数 可 能 不 同 ， 我 们 把 它们 放 到 一 个 表 中 。 注 
意 , 所 有 的 数 可 能 都 有 某 位 数字 , 因此 如 果 使 用 简单 数组 表示 表 , 那么 每 个 数组 必然 大 小 为 
N, 总 的 空间 需求 是 @( N?)。 

下 面 例子 说 明 10 个 数 的 桶 式 排序 的 具体 做 法 。 本 例 的 输入 是 64, 8, 216, 512, 27, 
729, 0, 1, 343, 125( 前 10 个 立方 数 , 随机 排列 ) 。 第 一 步 按照 最 低位 优先 进行 桶 式 排序 。 为 
使 问题 简化 , 此 时 操作 按 基 是 10 进行 , 不 过 一 般 并 不 做 这 样 的 假设 。 图 3-24 显示 出 这 些 桶 
的 位 置 , 因此 按 最 低位 优先 排序 得 到 的 表 是 0, 1, 512, 343, 64, 125, 216, 27, 8, 729。 现 在 
再 按照 次 最 低位 ( 即 十 位 上 的 数字 ) 优 先进 行 第 二 趟 排序 ( 见 图 3-25)。 第 二 趟 排序 输出 0，1， 
8, 512, 216, 125, 27, 729, 343, 64。 现 在 这 个 表 是 按 两 个 最 小 的 位 排序 得 到 的 表 。 最 后 一 
趟 桶 式 排序 是 按 最 高 位 进行 , 其 结果 显示 于 图 3-26。 最 后 得 到 的 表 是 0, 1, 8, 27, 64, 125, 


216, 343, 512, 729, 
[5 1 | siz | 343 | 68 us [ne | 27 [ v | 79 
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图 3-24 第 一 起 基数 排序 后 的 桶 
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326 ”最 后 一 趋 基数 排序 后 的 桶 


为 使 算法 能 够 得 出 正确 的 结果 , 要 注意 惟一 出 错 的 可 能 是 如 果 两 个 数 出 自 同 一 个 桶 但 顺 
序 却 是 错误 的 。 不 过 ,前面 各 趟 排序 保证 了 当 几 个 数 进入 一 个 桶 的 时 候 ， 它们 是 以 排序 的 顺 
序 进入 的 。 该 排序 的 运行 时 间 是 O(P(N + B), 其 中 已 是 排序 的 趟 数 ，N 是 要 被 排序 的 元 


素 的 个 数 , 而 B 是 桶 数 。 本 例 中 , B= No 
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作为 一 个 例子 , 我 们 可 以 把 能 够 在 (32 位 ) 计 算 机 上 表示 的 所 有 整数 按 基数 排序 方法 排 
FE, 假设 我 们 在 大 小 为 2 的 桶 的 条 件 下 分 三 趟 进行 。 在 这 台 计算 机 上 ,该 算法 将 总 是 
OWN), 但 是 , 有 可 能 仍然 不 如 我 们 将 在 第 7 章 看 到 的 某 些 算法 有 效 ， 因 为 包含 大 的 常数 。 
(我 们 记得 , logN 的 因子 不 都 这 么 大 , 而 该 算法 总 有 保存 链表 的 附加 开销 。) 
SER 

我 们 的 最 后 一 个 例子 阐述 链表 的 更 复杂 的 应 用 。 一 所 有 40 000 名 学 生 和 2 500 门 课程 的 
大 学 需要 生成 两 种 类 型 的 报告 。 第 一 个 报告 列 出 每 个 班 的 注册 者 , 第 二 个 报告 列 出 每 个 学 生 
注册 的 班级 。 

常用 的 实现 方法 是 使 用 二 维 数组 。 这 样 一 个 数组 将 有 1 亿 项 。 平 均 大 约 一 个 学 生 注 册 三 
门 课程 , 因此 实际 上 有 意义 的 数据 只 有 120 000 项 , 大约 占 0.1%。 

现在 需要 的 是 列 出 每 个 班 及 每 个 班 所 包含 的 学 生 的 表 。 我 们 也 需要 每 个 学 生 及 其 所 注册 
的 班级 的 表 。 图 3-27 显示 实现 的 方法 。 
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图 3-27 注册 问题 的 多 表 实现 


正如 该 图 所 显示 的 , 我 们 已 经 把 两 个 表 合 成 为 一 个 表 。 所 有 的 表 都 各 有 一 个 表 头 并 且 都 是 
循环 的 。 比 如 , 为 了 列 出 C3 班 的 所 有 学 生 ， 我 们 从 C3 开始 通过 向 右 行进 而 遍历 其 表 。 第 一 个 
单元 属于 学 生 SI。 虽 然 不 存在 明显 的 信息 ， 但 是 可 以 通过 跟踪 该 生 链表 直达 到 该 表 表 头 而 确定 
该 生 的 信息 。 一 旦 找到 该 生 信息 , 我们 就 转 回 到 C3 的 表 ( 在 遍历 该 生 的 表 之 前 ， 我 们 存储 了 
我 们 在 课程 表 中 的 位 置 ) 并 找到 可 以 确定 属于 S3 的 另外 一 个 单元 ， 我 们 继续 并 发 现 S4 Al SS 
也 在 该 班 上 。 对 任意 一 名 学 生 ， 我 们 也 可 以 用 类 似 的 方法 确定 该 生 注册 的 所 有 课程。 

使 用 循环 表 节 省 空间 但 是 要 花费 时 间 。 在 最 坏 的 情况 下 ， 如 果 第 一 个 学 生 注册 了 每 一 门 
课程, 那么 表 中 的 每 一 项 都 要 检测 以 确定 该 生 的 所 有 课程 名 。 因为 在 本 例 中 每 个 学 生 注册 的 
课程 相对 很 少 并 且 每 门 课程 的 注册 学 生 也 很 少 ， 最 坏 的 情况 是 不 可 能 发 生 的。 如 果 怀 疑 会 产 
生 问题 ， 那么 每 一 个 ( 非 表 头 ) 单 元 就 要 有 直接 指向 学 生 和 班 的 表 头 的 指针 。 这 将 使 空间 的 需 
求 加 倍 , 但 是 却 简化 和 加 速 实现 的 过 程 。 


3.2.8 链表 的 游标 实现 
诸如 BASIC 和 FORTRAN 等 许多 语言 都 不 支持 指针 。 如 果 需 要 链表 而 又 不 能 使 用 指 
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t. 那么 就 必须 使 用 另外 的 实现 方法 。 我 们 将 描述 这 种 方法 并 称 为 游标 (cursor) 实 现 法 。 

在 链表 的 指针 实现 中 有 两 个 重要 的 特点 : 

1. 数据 存储 在 一 组 结构 体 中 。 每 一 个 结构 体 包含 有 数据 以 及 指向 下 一 个 结构 体 的 指针 -。 

2. 一 个 新 的 结构 体 可 以 通过 调用 malloc 而 从 系统 全 局 内 存 (global memory) 得 到 , 并 可 
通过 调用 free 而 被 释放 。 

游标 法 必须 能 够 模仿 实现 这 两 条 特性 。 满 足 条 件 ! 的 逻辑 方法 是 要 有 一 个 全 局 的 结构 体 
数组 。 对 于 该 数组 中 的 任何 单元 , 其 数组 下 标 可 以 用 来 代表 一 个 地 址 。 图 3-28 给 出 链表 游 
标 实现 的 声明 。 





#ifndef _Cursor_H 


typedef int PtrToNode; 
typedef PtrToNode List; 
typedef PtrToNode Position; 


void InitializeCursorSpace( void ); 


List MakeEmpty( List L ); 

int IsEmpty( const List L ); 

int IsLast( const Position P, const List L ); 
Position Find( ElementType X, const List L ); 
void Delete( ElementType X, List L); 

Position FindPrevious( ElementType X, const List L ); 
void Insert( ElementType X, List L, Position P ); 
void DeleteList( List L ); 

Position Header( const List L); 

Position First( const List L ); 

Position Advance( const Position P ); 
ElementType Retrieve( const Position P ); 


wendif — /* _Cursor_H */ 
/* Place in the implementation file */ 
struct Node 
ElementType Element; 
Position Next; 
k 


struct Node CursorSpace[ SpaceSize ]; 











图 3-28 链表 游标 实现 的 声明 





现在 我 们 必须 模拟 条 件 2, 让 CursorSpace 数组 中 的 
单元 代行 malloc 和 free 的 职能 。 为 此 , 我 们 将 保留 一 个 
表 ( 即 freelisb, 这 个 表 由 不 在 任何 表 中 的 单元 构成 。 该 
表 将 用 单元 0 作为 表 头 。 其 初始 配置 在 图 3-29 中 表示 。 

对 于 Next, 0 的 值 等 价 于 NULL 指针 。CursorSpace 
的 初始 化 是 一 个 简单 的 循环 结构 , 我 们 将 它 留 作 练习 。 
为 执行 malloc 功能 , 将 (在 表 头 后 面 的 ) 第 一 个 元 素 从 
freclist 中 删除 。 为 了 执行 free 功能 , 我 们 将 该 单元 放 在 
freelist 的 前 端 。 图 3-30 表示 出 malloc 和 free 的 游标 实 
Jb. 注意, 如果 没有 可 用 空间 , 那么 我 们 的 例 程 通过 置 18329. 一 个 初始 化 的 CursorSpace 
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P = 0 会 正确 地 实现 。 它 表明 再 没有 空间 可 用 , 并 且 也 可 以 使 CursorAlloc 的 第 二 行 成 为 空 
操作 (no-op)。 





static Position 
CursorAlloc( void ) 
{ 

Position P; 


P = CursorSpace[ 0 ].Next; 
CursorSpace[ 0 ].Next = CorsorSpace[ P ].Next; 


return P; 
H 


static void 
CursorFree( Position P ) 


CursorSpace[ P ] .Next = CursorSpace[ 0 ).Next; 
CursorSpace( 0 ] .Next = P; 
) 








图 3-30 PiP: CursorAlloc 和 CursorFree 


有 了 这 些 ， 链 表 的 游标 实现 就 简单 了 。 为 了 前 后 一 致 ， wal mena. | Rest 
我 们 将 用 一 个 头 结 点 实现 我 们 的 链表 。 作 为 一 个 例子 , 在 图 ro | 
3.31 中 , 如 果 L 的 值 是 5 而 M 的 值 为 3, 则 L 表示 链表 a, 1 
b, e, 而 M 表示 链表 c, d, fo 3 
为 了 写 出 用 游标 实现 链表 的 这 些 函数 ,我们 必须 传递 和 了 
; 
8 
9 
0 








返回 与 指针 实现 时 相同 的 参数 。 这 些 例 程 很 简单 。 图 3-32 是 
一 个 测试 表 是 否 为 空 表 的 函数 。 图 3-33 实现 对 当前 位 置 是 否 
是 表 的 末尾 的 测试 。 图 3-34 中 的 函数 Find 返回 表 L 中 的 XX 1 
的 位 置 。 实 现 删除 的 程序 在 图 3-35 中 给 出 。 再 有 , 游标 实现 
的 接口 和 指针 实现 是 一 样 的 。 最 后 ,图 3-36 表示 Insert 的 游 
标 实现 。 











c 
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图 3-31 链表 游标 实现 的 例 





/* Return true if L is empty */ 


int 
IsEmpty( List L ) 


return CursorSpace[ L ] .Next == 0; 














图 3-32 ”测试 一 个 链表 是 否 为 空 的 函数 一 一 游标 实现 





/* Return true if P is the last position in list L */ 
/* Parameter L is unused in this implementation */ 


int 
IsLast( Position P, List L ) 
{ 
return CursorSpace[ P ] .Next == 0; 


Y 











图 3.33 测试 P 是 否 是 链表 的 末尾 的 函数 一 游标 实现 
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/* Return Position of X in L; 0 if not found */ 
/* Uses a header node */ 


Position 
Find( ElementType X, List L ) 


Position P; 
Ita P = CursorSpace[ L ).Next; 
We 2s/ while( P && CursorSpace[ P ].Element != X ) 
PE P = CursorSpace( P ].Next; 


ftn return P; 





1334 (E Find 一 一 游标 实现 








* Delete first occurrence of X from a list */ 


/* Assume use of a header node */ 


void 
Delete( ElementType X, List L ) 
t 


Position P, TmpCell; 
P = FindPrevious( X, L ); 


if( !IsLast( P, L) ) — /* Assumption of header use */ 
{ /* X is found; delete it */ 
TmpCell = CursorSpace[ P ].Next; 
CursorSpace[ P ].Next = CursorSpace[ TmpCell ].Next; 
CursorfreeC TepCell 2; 








18335 对 链表 进行 删除 操作 的 例 程 Delete 一 一 游标 实现 





/* Insert (after legal position P) */ 
/* Header implementation assumed */ 
/* Parameter L is unused in this implementation */ 


void 
Insert( ElementType X, List L, Position P ) 


Position TmpCell: 
ay TmpCell = CursorAlloc( ); 
2 if( TmpCell == 0 ) 
3 FatalError( "Out of space!!!" ); 


a CursorSpace[ TmpCell ] .Element = X; 


5*/ CursorSpace[ TmpCell ] .Next = CursorSpace[ P ].Next; 


6*/ CursorSpace[ P ] .Next = TmpCell; 





其 余 例 程 的 编码 类 似 。 关 键 的 一 点 是 , 这 些 例 程 遵循 ADT 的 规范 。 它 人 


图 3.36 ”对 链表 进行 插入 操作 的 例 程 Insert 一 一 游标 实现 





采用 特定 的 变 


量 并 执行 特定 的 操作 。 实 现 对 用 户 是 透明 的 。 游 标 实现 可 以 用 来 代替 链表 实现 , 实际 上 在 程 
序 的 其 余部 分 不 需要 变化 。 由 于 缺少 内 存 管理 例 程 , 因此 ,如 果 运行 的 Find 函数 相对 很 少 ， 
则 游标 实现 的 速度 会 显著 加 快 。 
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freelist 从 字面 上 看 表示 一 种 有 趣 的 数据 结构 。 从 freelist 删除 的 单元 是 刚刚 由 free 放 在 
那里 的 单元 。 因 此 , 最 后 被 放 在 freelist 的 单元 是 被 最 先 拿 走 的 单元 。 有 一 种 数据 结构 也 具有 
这 种 性 质 , 叫 作 栈 (stack), 它 是 下 一 节 要 讨论 的 课题 。 


3.3 $ ADT 


3.3.1 栈 模 型 

栈 (stack) 是 限制 插入 和 删除 只 能 在 一 个 位 置 上 进行 的 表 , 该 位 置 是 表 的 末端 , 叫做 栈 的 
顶 (top)。 对 栈 的 基本 操作 有 Push ( 进 栈 ) 和 Pop (HAR), 前 者 相当 于 插入 , 后 者 则 是 删除 最 
后 插 和 人 的 元 素 。 最 后 插 人 的 元 素 可 以 通过 使 用 Top 例 程 在 执行 Pop 之 前 进行 考查 。 对 空 栈 
进行 的 Pop 或 Top 一 般 被 认为 是 栈 ADT 的 错误 。 另 一 方面 ， 当 运行 Push 时 空间 用 尽 是 一 
个 实现 错误 , 但 不 是 ADT 错误。 ` 








Pop(S) 
Sack S Push(X, S) 





Top(S) 








18.3.37. SUBD: 通过 Push 向 栈 输入 , 通过 Pop 从 栈 输 出 


栈 有 时 又 叫做 LIFO( 后 进 先 出 ) 表 。 在 图 3-37 
中 描述 的 模型 只 象征 着 Push 是 输入 操作 而 Pop 和 Top 
Top 是 输出 操作 。 普 通 的 清空 栈 的 操作 和 判断 是 
否 空 栈 的 测试 都 是 栈 的 操作 指令 系统 的 一 部 分 ， 
但 是 , 对 栈 所 能 够 做 的 ， 基 本 上 也 就 是 Push 和 "n 


2 





ian 

















Pop 操作 。 (GH 
图 3-38 表示 在 进行 若干 操作 后 的 一 个 抽象 的 (6H) 
栈 。 一 般 的 模型 是 ,存在 某 个 元 素 位 于 栈 项 ,而 该 
元 素 是 惟一 的 可 见 元 素 。 图 3.38 REN: 只 有 栈 项 元 素 是 可 访问 的 
3.3.2 RAR 


由 于 栈 是 一 个 表 , 因此 任何 实现 表 的 方法 都 能 实现 栈 。 我 们 将 给 出 两 个 流行 的 实现 方 
法 ,一 种 方法 使 用 指针 , 而 另 一 种 方法 则 使 用 数组 。 但 是 ， 正如 我 们 在 前 一 节 看 到 的 , 如果 
使 用 好 的 编程 原则 , 那么 调用 例 程 不 必 知道 使 用 的 是 哪 种 方法 。 
栈 的 链表 实现 
栈 的 第 一 种 实现 方法 是 使 用 单 链表 。 我 们 通过 在 表 顶 端 插入 来 实现 Push, 通过 删除 表 
顶端 元 素 实现 Popo Top 操作 只 是 考查 表 顶 端 元 素 并 返回 它 的 值 。 有 时 Pop 操作 和 Top 操 
: 合 二 为 一 。 我 们 本 可 以 使 用 前 一 节 的 链表 例 程 ， 但 为 了 清楚 起 见 我 们 还 是 从 头 开始 重 写 栈 


的 例 程 。 
首先 , 我 们 在 图 3-39 中 给 出 一 些 定义 。 实现 栈 要 用 到 一 个 表 头 。 图 3-40 表明 , 测试 空 


* 栈 与 测试 空 表 的 方式 相同 。 


\ 63 


创建 一 个 空 栈 也 很 简单 , 我 们 只 要 建立 一 个 头 结 点 ; MakeEm pty 设置 Nert 指针 指向 
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#ifndef Stack h 


struct Node; 
typedef struct Node *PtrToNode; 
typedef PtrToNode Stack; 


int IsEmpty( Stack S ): 

Stack CreateStack( void ); | 
void DisposeStack( Stack $ ); 

void Maketmpty( Stack S ); 

void Push( ElementType X, Stack S ); 
ElenentType Top( Stack S ); 

void Pop( Stack 5 ); 


#endif /* Stack h */ 


/* Place in implementation file */ 
/* Stack implementation is a linked list with a header */ 
struct Node 
{ 
ElementType Element; 
PtrToNode Next; 





k 








图 3-39 HL ADT 链表 实现 的 类 型 声明 





int 
Istmpty( Stack S ) 


return S->Next == NULL; 
+ 











图 3-40 测试 栈 是 否 空 栈 的 例 程 一 链表 实现 
NULL( 见 图 3-41)。Push 是 作为 向 链表 前 端 进 行 插入 而 实现 的 , 其 中 , 表 的 前 端 作为 栈 顶 
( 见 图 3-42)。Top 的 实施 是 通过 考查 表 在 第 一 个 位 置 上 的 元 素 而 完成 的 ( 见 图 3-43)。 最 后 
Pop 是 通过 删除 表 的 前 端的 元 素 而 实现 的 ( 见 图 3-44)。 





Stack 
CreateStack( void ) 
{ 


Stack $; 


S = malloc( sizeof( struct Node ) ); 
if( S == NULL ) 
FatalError( “Out of space!!!" ); 
S-»Next == NULL: 
MakeEmpty( S ): 
return $; 
) 


void 
MakeEmpty( Stack $ ) 
{ 


if( S == NULL ) 
Frror( "Must use CreateStack first" ); 

else 

while( !IsEmpty( S ) ) 
PopC $2; 











图 3-41 创建 一 个 空 栈 的 例 程 一 一 链表 实现 
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void 
pushe ElementType X, Stack S ) 


PtrToNode TmpCell; 


TmpCell = malloc( sizeof( struct Node ) ); 
if( TmpCell == NULL ) 

FatalFrror( "Out of space!!!" ); 
else 


TepCell-»Element = X; 
TmpCell-»Next = 
S->Next = TepCell; 

) 





) 








图 3-42 Push 进 栈 的 例 程 一 一 链表 实现 





ElementType 
Top( Stack S ) 


ifC HsEmpty( $ ) ) 
return S-»Next-»Element; 
Error( "Empty stack" ); 
i return 0; /* Return value used to avoid warning */ 








图 3-43 ”返回 栈 项 元 素 的 例 程 一 一 链表 实现 





void 
Pop( Stack S ) 


PtrToNode FirstCell; 


if( IsEmpty( S ) ) 
Error( "Empty stack" ); 
else 


FirstCell = S-»Next; 
S-»Next = S-»Next-»Next; 
free( FirstCell ); 
) 
) 











图 3-44 ”从 栈 弹 出 元 察 的 例 程 一 链表 实现 


很 清楚 , 所 有 的 操作 均 花费 常数 时 间 , 因为 这 些 例 程 没有 任何 地 方 涉及 到 栈 的 大 小 ( 空 
栈 除外 ), 更 不 用 说 依赖 于 栈 大 小 的 循环 了 。 这 种 实现 方法 的 缺点 在 于 对 malloc 和 free 的 调 
用 的 开销 是 昂贵 的 特别 是 与 指针 操作 的 例 程 相 比 尤其 如 此 。 有 的 缺点 通过 使 用 第 二 个 栈 可 
以 避免 , 该 第 二 个 栈 初始 时 为 空 栈 。 当 一 个 单元 从 第 一 个 栈 弹出 时 ， 它 只 是 被 放 到 了 第 二 个 
栈 中 。 此 后 , 当 第 一 个 栈 需要 新 的 单元 时 ， 它 首先 去 检查 第 二 个 栈 。 
栈 的 数组 实现 

另 一 种 实现 方法 避免 了 指针 并 且 可 能 是 更 流行 的 解决 方案 。 这 种 策略 的 惟一 潜在 危害 是 
我 们 需要 提前 声明 一 个 数组 的 大 小 。 一 般 说 来 , 这 并 不 是 个 问题 , 因为 在 典型 的 应 用 程序 
中 ,即使 有 相当 多 的 栈 操作 ,在 任 一 时 刻 栈 元 素 的 实际 个 数 从 不 会 太 大。 声明 一 个 数组 足够 
大 而 不 至 于 浪费 太 多 的 空间 通常 并 没有 什么 困难 。 如 果 不 能 做 到 这 一 点 ,那么 节省 的 做 法 是 
使 用 链表 来 实现 。 
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用 一 个 数组 实现 栈 是 很 简单 的 。 每 一 个 栈 有 一 个 TopOfStack, 对 于 空 栈 它 是 -1( 这 就 [64| 
是 空 栈 的 初始 化 )。 为 了 将 某 个 元 素 X 压 和 人 到 该 栈 中 , 我 们 将 TopO/Stack In 1. AER |66 
Stack | TopOfStack) = X. 其 中 Stack 是 代表 具体 栈 的 数组 。 为 了 弹出 栈 元 素 . 我 们 置 返回 加 
值 为 Stack[ TopOfStack ] 然 后 TopOfStack 减 1。 当 然 , 由 于 潜在 地 存在 多 个 栈 , 因此 Stack 
数组 和 TopOfStack. 是 代表 一 个 栈 的 结构 的 一 部 分 。 使 用 全 局 变量 和 固定 名 字 来 表示 这 种 (或 
任 一 ) 数 据 结构 几乎 总 是 有 害 的 , 因为 在 大 多 数 实 际 情况 下 总 是 存在 多 于 一 个 的 栈 。 当 编写 
实际 程序 的 时 候 , 你 应 该 尽 可 能 紧密 地 遵循 模型 , 这样, 除 一 些 栈 例 程 外 ,你 的 程序 的 任何 
部 分 都 没有 存 取 被 每 个 栈 蕴含 的 数组 或 栈 顶 (top-of-stack) 变 量 的 可 能 。 这 对 所 有 的 ADT ME 
作 都 是 成 立 的 。 像 Ada 和 C+ + 这样 的 现代 程序 设计 语言 实际 上 都 能 够 实施 这 个 法 则 。 

DERE. 这 些 操作 不 仅 以 常数 时 间 运 行 , 而 且 是 以 非常 快 的 常数 时 间 运 行 。 在 某 些 机 器 
T. 若 在 带 有 自 增 和 自 减 寻 址 功能 的 寄存 器 上 操作 , 则 (整数 的 ) Push 和 Pop 都 可 以 写成 一 条 
机 器 指令 。 最 现代 化 的 计算 机 将 栈 操作 作为 它 的 指令 系统 的 一 部 分 , 这 个 事实 强化 了 这 样 一 
种 观念 ， 即 栈 很 可 能 是 在 计算 机 科学 中 在 数组 之 后 最 基本 的 数据 结构 。 

-个 影响 栈 的 执行 效率 的 问题 是 错误 检测 。 我 们 的 链表 实现 中 是 仔细 地 检查 错误 的 。 正 
如 上 面 所 描述 的 , 对 空 栈 的 Pop 或 是 对 满 栈 的 Push 都 将 超出 数组 的 界限 并 引起 程序 崩 泪 ， 
显然 , 我 们 不 愿意 出 现 这 种 情况 。 但 是 , 如 果 把 对 这 些 条 件 的 检测 放 到 数组 实现 过 程 中 , 那 
就 很 可 能 要 花费 像 实际 栈 操作 那样 多 的 时 间 。 由 于 这 个 原因 , 除非 在 错误 处 理 极其 重要 的 场 
合 (如 在 操作 系统 中 ), 一 般 在 栈 例 程 中 省 去 错误 检测 就 成 了 普通 的 惯用 手法 。 虽 然 在 多 数 情 
况 下 你 可 能 通过 声明 一 个 栈 大 到 不 至 于 使 得 操作 溢出 , 并 保证 使 用 Pop 操作 的 例 程 绝 不 Pop 
一 个 空 栈 而 侥幸 避免 对 错误 的 检测 , 但 是 , 这 充其量 只 不 过 是 使 得 程序 得 以 正常 运行 而 已 ， 
特别 是 当 程 序 很 大 并 且 是 由 不 止 一 个 人 编写 或 是 分 若干 次 写成 的 时 候 。 因 为 栈 操作 花费 如 此 
快 的 常数 时 间 ， 所 以 一 个 程序 的 主要 运行 时 间 很 少 会 花 在 这 些 例 程 上 面 。 这 就 意味 着 , 忽略 
错误 检测 一 般 是 不 妥 的 。 你 应 该 随时 编写 错误 检测 的 代码 ; 如 果 它 们 元 长 ,那么 当 它 们 确实 
耗费 太 多 时 间 时 你 总 可 以 将 它们 去 掉 (comment them out)。 在 进行 上 面 的 评述 以 后 , 我 们 现 
在 就 可 以 编写 用 数组 实现 一 般 的 栈 的 例 程 了 。 

在 图 3-45 中 Stack( 栈 ) 被 定义 为 指向 一 个 结构 体 的 指针 。 该 结构 体 包含 TopOfStack 域 
和 Capacity 域 。 一 旦 知道 最 大 容量 , 则 该 栈 即 可 被 动态 地 确定 。 图 3-46 创建 一 个 具有 给 定 
的 最 大 值 的 栈 。 第 3 行 到 第 5 行 指定 该 栈 的 结构 ,而 第 6 行 到 第 8 行 则 指定 栈 的 数组 。 第 9 
行 和 第 10 行 初始 化 域 TopOfStack 和 域 Capacity。 栈 的 数组 不 需要 初始 化 。 第 11 行 返回 栈 。 

为 了 释放 栈 结构 应 该 编写 例 程 DisposeStack。 这 个 例 程 首先 释放 栈 数组 ， 然后 释放 栈 结 
构 体 ( 见 图 3-47)。 由 于 CreateStack 在 栈 的 数组 实现 中 需要 一 个 参数 ， 而 在 链表 实现 中 不 需 
要 参数 , 因此 若 在 后 者 的 实现 中 不 添加 哑 元 的 话 ， 那么 这 个 使 用 栈 的 例 程 就 需要 知道 正在 使 [67] 
用 的 是 哪 种 实现 方法 。 不 幸 的 是 , 效率 和 软件 理想 主义 常常 发 生 冲突 。 

我 们 已 经 假设 所 有 的 栈 均 处 理 相同 类 型 的 元 素 。 在 许多 的 编程 语言 中 、 如 果 存 在 不 同类 
型 的 栈 , 那么 我 们 就 需要 为 每 种 不 同类 型 的 栈 重新 编写 一 套 栈 的 新 的 例 程 ， 同时 给 每 套 例 程 
赋予 不 同 的 名 字 。 在 C+ + 中 提供 了 更 彻底 的 方法 ， 它 允 许 我 们 编写 一 套 一 般 的 栈 例 程 ,对 
任何 类 型 的 栈 都 能 正常 运行 。C+ + 还 允许 几 种 不 同类 型 的 栈 保留 相同 的 过 程 和 函数 名 (如 
Push Mi Pop), 通过 检验 主 调 例 程 的 类 型 ， 编译 程序 可 决定 使 用 哪些 例 程 。 

TTT LHW MRS, 现在 我 们 就 来 重 写 五 个 栈 例 程 。 我 们 将 以 纯 ADT 风格 使 函 
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#ifndef Stack h 


struct StackRecord; 
‘typedef struct StackRecord *Stack; 


‘int IsEmpty( Stack S ); 

int IsFull( Stack S ); 

Stack CreateStack( int MaxElements ); 
void DisposeStack( Stack S ); 

void MakeEmpty( Stack S ); 

void Push( ElementType X, Stack $ ); 
ElementType Top( Stack S ); 

void Pop( Stack S ); 

ElementType TopAndPop( Stack S ); 


wendif /* Stack h */ 


/* Place in implementatioin file */ 

/* Stack implementation is a dynamically allocated array */ 
#define EmptyTOS ( -1 ) 

define MinStackSize ( 5 ) 


Struct StackRecord 
{ 
int Capacity; 
int TopofStack; 
ElementType *Array; 
iH 











图 3-45 栈 的 声明 一 一 数组 实现 








Stack 

CreateStack( int MaxElements ) 

Stack S; 

Ie A if( MaxElements < MinStackSize ) 
1+ 24/ Error( "Stack size is too small" ); 
DIE S = malloc( sizeof( struct StackRecord ) ); 
/* nj ifCS == NULL ) 
z s*y FatalError( "Out of space!!!" ); 
/* 6*/ S-»Array = malloc( sizeof( ElementType ) * MaxElements ); 
Itm) ifC S->Array == NULL ) 
/* 8*/ FatalError( "Out of space!!!" ); 
* 9n S-»Capacity = MaxElements; 
/*10*/ MakeEmpty( S 2; 
fnis return S; 








füxa6 ” 栈 的 创建 一 数组 实现 








void 
DisposeStack( Stack S ) 


ifCS l= NULL ) 


free( S-»Array ); 
free( S ); 





图 3-47 ”释放 栈 的 例 程 一 一 数组 实现 
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数 和 过 程 的 题名 外 观 等 同 于 链表 实现 。 这 些 例 程 本 身 是 非常 简单 的 , 并 且 严格 遵循 图 中 的 描 
述 ( 见 图 3-48 到 图 3-52) 。 





int 
pese Stack 5 ) 


[ 
E: return S-»TopOfStack == EmptyTOS; 
Lt 





1348 检测 一 个 栈 是 否 空 栈 的 例 程 一 一 数组 实现 







void 
MakeEmpty( Stack S ) 






S-»TopOfStack = EmptyTOS; 





图 3-49 创建 一 个 空 栈 的 例 程 一 一 数组 实现 





void 
Push( ElementType X, Stack S ) 


if( IsFull( S ) ) 

Error( “Full stack" ); 
else 
S-»Array[ ++5->TopOfStack ] = X; 








18350 进 栈 的 例 程 一 一 数组 实现 





ElementType 
Top( Stack 5 ) 


if( "IsEmptyC $ ) ) 
return S->Array[ S-»TopOfStack ]; 
Error( "Empty stack" ); 
return 0; /* Return value used to avoid warning */ 








图 3-51 将 栈 项 返回 的 例 程 一 一 数组 实现 





void 
Pop( Stack $ ) 


if( IsEmpty( 5 ) ) 

Error( "Empty stack” ); 
else 

S->TopOfSrack--; 








) 





图 3-52 ”从 栈 弹出 元 素 的 例 程 一 一 数组 实现 


Pop 偶尔 写成 返回 弹出 的 元 素 (并 使 栈 改变 ) 的 函数 。 虽 然 当前 的 想法 是 函数 不 应 该 改变 
其 输入 参数 , 但 是 图 3-53 表明 这 在 C 中 是 最 方便 的 方法 。 
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ElementType 
TopAndPop( Stack S ) 


if( !IsEmpty( S ) ) 
return S->Array[ S-»TopOfStack-- ]; 
Error( "Empty stack" ); 
n return 0; /* Return value used to avoid warning */ 











图 3-53 给 出 栈 顶 元 案 并 从 栈 弹 出 的 例 程 一 一 数组 实现 


3.3.3 应 用 

毫 不 奇怪 , 如果 我 们 把 操作 限制 于 一 个 表 , 那么 这 些 操作 会 执行 得 很 快 。 然 而 , 令 人 惊 
奇 的 是 , 这 些 少 量 的 操作 非常 强大 和 重要 。 在 栈 的 许多 应 用 中 , 我们 给 出 三 个 例子 , 第 三 个 
实例 深刻 说 明 程序 是 如 何 组 织 的 。 
平衡 符号 

编译 器 检查 你 的 程序 的 语法 错误 , 但 是 常常 由 于 缺少 一 个 符号 (如 遗漏 一 个 花 括号 或 是 
注释 起 始 符 ) 引 起 编译 器 列 出 上 百 行 的 诊断 ,而 真正 的 错误 并 没有 找 出 。 

在 这 种 情况 下 一 个 有 用 的 工具 就 是 检验 是 否 每 件 事情 都 能 成 对 出 现 的 一 个 程序 。 于 是 ， 
每 一 个 右 花 括号 、 右 方 括号 及 右 圆 括号 必然 对 应 其 相应 的 左 括 号 。 序 列 “[()]" 是 合法 的 , 但 
“[( ] )" 是 错误 的 。 显 然 , 不 值得 为 此 编写 一 个 大 型 程序 , 事实 上 检验 这 些 事情 是 很 容易 的 。 
为 简单 起 见 ,我 们 仅 就 圆 括号 、 方 括号 和 花 括号 进行 检验 并 忽略 出 现 的 任何 其 他 字符 。 

这 个 简单 的 算法 用 到 一 个 栈 , 叙述 如 下 : 


做 一 个 空 栈 。 读 入 字符 直到 文件 尾 。 如 果 字符 是 一 个 开放 符号 ， 则 将 其 推 入 栈 中 。 
如 果 字符 是 一 个 封闭 符号 ， 则 当 栈 空 时 报错 。 否 则 ， 将 栈 元 素 弹 出 。 如 果 弹 出 的 符号 不 
是 对 应 的 开放 符号 ， 则 报错 。 在 文件 尾 ， 如 果 栈 非 空 则 报错 。 


你 应 该 能 够 确信 这 个 算法 是 会 正确 运行 的 。 很 清楚 ， 它 是 线性 的 ， 事实 上 它 只 需 对 输入 
进行 一 赵 检 验 。 因 此， 它 是 在 线 (on-line) 的 ,是 相当 快 的 。 当 报错 时 ,决定 如 何 处 理 需要 做 ， 
一 些 附加 的 工作 一 一 例如 判断 可 能 的 原因 。 

BRAK 

假设 我 们 有 一 个 便携 计算 器 并 想 要 计算 一 趟 外 出 购物 的 花费 。 为 此 ， 我 们 将 一 列 数据 相 
加 并 将 结果 乘 以 1.06; 它 是 所 购物 品 的 价格 以 及 附加 的 地 方 税 。 如 果 购物 各 项 花 销 为 4.99， 
5.99, 和 6.99, 那么 输入 这 些 数据 的 自然 的 方式 将 是 

4.99 + 5.99 + 6.99 * 1.06 = 

随 着 计算 器 的 不 同 , 这 个 结果 或 者 是 所 要 的 答案 19.05, 或 者 是 科学 答案 18.39。 最 简单 
的 四 功能 计算 器 将 给 出 第 一 个 答案 ， 但 是 许多 先进 的 计算 器 是 知道 乘法 的 优先 级 是 高 于 加 
法 的 。 

另 一 方面 , 有 些 项 是 需要 上 税 的 而 有 些 项 则 不 是 , 因此 ， 如 果 只 有 第 一 项 和 最 后 一 项 是 
要 上 税 的 , 那么 

4.99 * 1.06 + 5.99 + 6.99 * 1.06 = 
将 在 科学 计算 器 上 给 出 正确 的 答案 (18.69) 而 在 简单 计算 器 上 给 出 错误 的 答案 (19.37)。 科学 
计算 器 一 般 包 含 括号 ， 因此 我 们 总 可 以 通过 加 括号 的 方法 得 到 正确 的 答案 ， 但 是 使 用 简单 计 
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算 器 我 们 需要 记 住 中 间 结 果 - 

该 例 的 典型 计算 顺序 可 以 是 将 4.99 和 1.06 相 乘 并 存 为 A , 然后 将 5.99 和 Ai 相 加 , 再 
将 结果 存 人 Ao 我 们 再 将 6.99 和 1.06 相 乘 并 将 答案 存 为 A. 最 后 将 Al 和 相 Ao 加 并 将 最 后 
结果 放 和 人 Ai。 我 们 可 以 将 这 种 操作 顺序 书写 如 下 : 

4.99 1.06 * 5.99 + 6.99 1.06 * + 

这 个 记 法 叫做 后 组 (postfix) 或 过 波兰 (reverse Polish) 记 法 ,其 求 值 过 程 恰好 就 是 我 们 上 
面 所 描述 的 过 程 。 计 算 这 个 问题 最 容易 的 方法 是 使 用 一 个 栈 。 当 见 到 一 个 数 时 就 把 它 推 人 栈 
中 ; 在 遇 到 一 个 运算 符 时 该 算 符 就 作用 于 从 该 栈 弹出 的 两 个 数 (符号 ) 上, 将 所 得 结果 推 入 栈 
中 ， 例 如 , FARER 

6523+8* +3+ * 
计算 如 下 : 前 四 个 字符 放 入 栈 中 , 此 时 栈 变 成 











TopOfStack 一 


下 面 读 到 一 个 "+ "号 , 所 以 3 和 2 从 栈 中 弹出 , 并 且 它 们 的 和 5 REAR P. 
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TopOfstack — | 5 
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接着 , 8 进 栈 。 
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现在 见 到 一 个 "* "号 , 因此 8 和 5 弹出 , HHS * 8 = 40 进 栈 。 
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TopOsak 一 | 40 





接着 又 见 到 一 个 *+" 号 , 因此 40 和 5 被 弹出 , 并 且 5 + 40 = 45 进 栈 。 
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现在 将 3 EARP 
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然后 “+ "使 得 3 和 45 从 栈 中 弹出 ,并 将 45 + 3 = 48 压 人 栈 中 。 











48 
6 


最 后 ， 遇 到 一 个 “ * "号 , 从 栈 中 弹出 48 和 6, 将 结果 6 * 48 = 288 EHRT. 
T 
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计算 一 个 后 级 表达 式 花费 的 时 间 是 O(N)， 因 为 对 输入 中 的 每 个 元 素 的 处 理 都 是 由 一 些 
栈 操作 组 成 从 而 花费 常数 时 间 。 该 算法 的 计算 是 非常 简单 的 。 注 意 ， 当 一 个 表达 式 以 后 级 记 
号 给 出 时 , 没有 必要 知道 任何 优先 规则 。 这 是 一 个 明显 的 优点 。 
LL EDI DL 

栈 不 仅 可 以 用 来 计算 后 级 表达 式 的 值 , 而 且 我 们 还 可 以 用 栈 将 一 个 标准 形式 的 表达 式 
(或 叫做 中 级 式 (infix) ) 转 换 成 后 绥 式 。 我 们 通过 只 允许 操作 + ，* ,(，), 并 坚持 普通 的 优先 
级 法 则 而 将 一 般 的 问题 浓缩 成 小 规模 的 问题 。 我 们 还 要 进一步 假设 表达 式 是 合法 的 。 设 我 们 
欲 将 中 级 表达 式 

atb*ct(d*e*tf*g 
转换 成 后 级 表达 式 。 正 确 的 答案 是 

abc* tde*f+g* + 

当 读 到 一 个 操作 数 的 时 候 , 立即 把 它 放 到 输出 中 。 操 作 符 不 立即 输出 ， 从 而 必须 先 存在 
某 个 地 方 。 正 确 的 做 法 是 将 已 经 见 到 过 的 操作 符 放 进 栈 中 而 不 是 放 到 输出 中 。 当 遇 到 左 圆 括 
号 时 我 们 也 要 将 其 推 人 栈 中 。 我 们 从 一 个 空 栈 开始 计算 。 

如 果 见 到 一 个 右 括号 , 那么 就 将 栈 元 素 弹出 , 将 弹出 的 符号 写 出 直到 我 们 过 到 一 个 (对 
应 的 ) 左 括号 , 但 是 这 个 左 括号 只 被 弹出 , 并 不 输出 。 

如 果 我 们 见 到 任何 其 他 的 符号 (“+”,“*”,“(”)， 那么 我 们 从 栈 中 弹出 栈 元 素 直到 发 
现 优先 级 更 低 的 元 素 为 止 。 有 一 个 例外 : 除非 是 在 处 理 一 个 “)” 的 时 候 ， 否则 我 们 绝 不 从 栈 
中 移 走 “(”"。 对 于 这 种 操作 ,“+ "的 优先 级 最 低 , 而 “(的 优先 级 最 高 。 当 从 栈 弹 出 元 素 的 工 
作 完成 后 , 我 们 再 将 操作 符 压 和 人 栈 中 。 

最 后 , 如 果 我 们 读 到 输入 的 末尾 ， 我 们 将 栈 元 素 弹 出 直到 该 栈 变 成 空 栈 , 将 符号 写 到 输 


出 中 。 
为 了 理解 这 种 算法 的 运行 机 制 ,我 们 将 把 上 面 的 中 级 表达 式 转换 成 后 组 形式 。 BH, a 
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被 读 人 , 于 是 它 流向 输出 。 然 后 ,“+ "被 读 人 并 被 放 和 人 栈 中 。 接 着 是 b 读 人 并 流向 输出 。 这 


一 时 刻 的 状态 如 下 : 


这 时 “ * "号 读 人 。 操 作 符 栈 的 栈 顶 元 素 比 * * "的 优先 级 低 , 故 没有 输出 ,“ *" 进 栈 。 接 着 , c 





J 


[ae 








Stack 


被 读 人 并 和 输出。 至此, 我 们 有 


Output. 











* 





(lave 





Stack 


Output 


后 面 的 符号 是 一 个 "+ "号 。 检 查 一 下 栈 ,我 们 发 现 ， 需 要 将 “ * "从 栈 弹出 并 放 到 输出 中 ; 弹 
出 栈 中 剩 下 的 “+ "号 , 该 算 符 不 比 刚刚 遇 到 的 + "号 优先 级 低 而 是 有 相同 的 优先 级 ; 然后 ， 
将 刚刚 遇 到 的 “+ "号 压 人 栈 中。 





十 


abete 








‘Stack 


下 一 个 被 读 到 的 符号 是 一 个 “(”， 


输出 。 


继续 进行 , 我 们 又 读 到 一 个 * ” 


Output 


由 于 有 最 高 的 优先 级 ,因此 它 被 放 进 栈 中 。 然 后 , d 读 人 并 








[oed 





Stack 


。 除 非 正在 处 理 闭 括号 ， 否 则 开 括 号 不 会 从 栈 中 弹出 ， 因 此 


没有 输出 。 下 一 个 是 。, 它 被 读 人 并 输出 。 


再 往 后 读 到 的 符号 是 +“。 
到 f 并 输出 。 








[Cabe ede 











Output 


将 " * "弹出 并 输出， 然后 将 * +“" 压 人 栈 中 。 这 以 后 , 我 们 读 











abc*sde*f 








Stack 


Output 


现在 , 我 们 读 到 一 个 “)”, 因此 将 栈 元 素 直 到 *(" 弹 出 ， 我 们 将 一 个 "+ "号 输出 。 
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+j 








Coe dett 





‘Stack 


Output 


下 面 又 读 到 一 个 " * ”， 该 算 符 被 压 人 栈 中 。 然 后 ,g 被 读 人 并 输出 。 
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+ (abetsde*fee j 
Stack Output 


现在 输入 为 空 ,因此 我 们 将 栈 中 的 符号 全 部 弹出 并 输出 , 直到 栈 变 成 空 栈 。 








| abetede*sg*s 


Suck Output 

与 前 面相 同 ,这 种 转换 只 需要 O(N) 时 间 并 经 过 一 赵 输 入 后 工作 完成 。 我 们 可 以 通过 指 
定 减法 和 加 法 有 相同 的 优先 级 以 及 乘法 和 除法 有 相同 的 优先 级 而 将 减法 和 除法 添加 到 指令 集 
中 去 。 一 种 巧妙 的 想法 是 将 表达 式 “a - b- c" 转 换 成 "ab - < - "而 不 是 转换 成 vabe "o 
我 们 的 算法 做 了 正确 的 工作 ， 因 为 这 些 操作 符 是 从 左 到 右 结合 的 。 一 般 情况 未 必 如 此 ， 比 如 
下 面 的 表达 式 就 是 从 右 到 左 结合 的 : 22 = 28 = 256, 而 不 是 和 = 64。 我 们 将 把 取 等 运算 添加 
到 指令 集中 的 问题 留 作 练习 。 
函数 调用 

检测 平衡 符号 的 算法 提供 一 种 实现 函数 调用 的 方法 。 这 里 的 问题 是 ， 当 调用 一 个 新 函数 
时 ,， 主 调 例 程 的 所 有 局 部 变量 需要 由 系统 存储 起 来 ,否则 被 调用 的 新 函数 将 会 覆盖 调用 例 程 
的 变量 。 不 仅 如 此 ,该 主 调 例 程 的 当前 位 置 必须 要 存储 ， 以 便 在 新 函数 运行 完 后 知道 向 哪里 
转移 。 这 些 变量 一 般 由 编译 器 指派 给 机 器 的 寄存 器 , 但 存在 某 些 冲突 (通常 所 有 的 过 程 都 将 
某 些 变量 指派 给 1# 寄 存 器 )， 特别 是 涉及 递归 的 时 候 。 该 问题 类 似 于 平衡 符号 的 原因 在 于 
函数 调用 和 函数 返回 基本 上 类 似 于 开 括号 和 闭 括号 , 二 者 想法 是 一 样 的 。 

当 存在 函数 调用 的 时 候 , 需要 存储 的 所 有 重要 信息 ,诸如 寄存 器 的 值 (对 应 变量 的 名 字 ) 
和 返回 地 址 ( 它 可 从 程序 计数 器 得 到 ,典型 情况 下 计数 器 就 是 一 个 寄存 器 ) 等 ,都 要 以 抽象 的 
方式 存在 "一 张 纸 上 " 并 被 置 于 一 个 堆 (pile) 的 顶部 。 然 后 控制 转移 到 新 函数 ,该 函数 自由 地 
用 它 的 -- 些 值 代替 这 些 寄存 器 。 如 果 它 又 进行 其 他 的 函数 调用 , 那么 它 也 遵循 相同 的 过 程 。 
当 该 函数 要 返回 时 ， 它 查看 堆 (pile) 顶 部 的 那 张 * 纸 "并 复原 所 有 的 寄存 器 。 然 后 它 进 行 返回 
转移 。 

BA, 所 有 全 部 工作 均 可 由 一 个 栈 来 完成 ， 而 这 正 是 在 实现 递归 的 每 一 种 程序 设计 语言 
中 实际 发 生 的 事实 。 所 存储 的 信息 或 称 为 活动 记录 (activation record), BEY ALA A (stack 
frame) 。 在 典型 情况 下 ,需要 做 些微 调整 : 当前 环境 是 由 栈 顶 描述 的 。 因 此 ,一 条 返回 语句 
就 可 给 出 前 面 的 环境 (不 用 复制 )。 在 实际 计算 机 中 的 栈 常常 是 从 内 存 分 区 的 高 端 向 下 增长 
而 在 许多 的 系统 中 是 不 检测 溢出 的 。 由 于 有 太 多 的 同时 在 运行 着 的 函数 ， 用 尽 栈 空间 的 情况 
总 是 可 能 发 生 的 。 显 而 易 见 , 用 尽 栈 空间 常 是 致命 的 错误 。 

在 不 进行 栈 滋 出 检测 的 语言 和 系统 中 , 程序 将 会 崩溃 而 没有 明显 的 说 明 。 在 这 些 系统 
中 ， 当 你 的 栈 太 大 时 会 发 生 一 些 奇怪 的 事情 ,因为 它 可 能 触及 到 你 的 程序 部 分 。 这 部 分 也 许 
是 主 程序 ,也 许 是 数据 部 分 , 特别 是 当 你 有 大 的 数组 的 时 候 。 如 果 它 擅 进 你 的 程序 WAR 
序 就 会 出 现 说 误 ; 产生 一 些 无 意义 的 指令 并 在 这 些 指令 被 执行 时 程序 出 省 。 如 果 栈 挤 进 你 的 
数据 , 很 可 能 发 生 的 是 ; 当 你 将 一 些 信息 写 人 你 的 数据 时 ,这 些 信息 将 冲 毁 栈 的 信息 一 很 
可 能 是 返回 地 址 一 那么 你 的 程序 将 返回 到 某 个 奇怪 的 地 址 上 去 ， 从 而 程序 崩溃 。 
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在 正常 情况 下 你 不 应 该 越 出 栈 空间 ; 发 生 这 种 情况 通常 是 由 失控 递归 (忘记 基准 情形 ) 的 
指向 引起 。 另 一 方面 , 某 些 完全 合法 并 且 表 面 上 无 害 的 程序 也 可 以 使 你 越 出 栈 空间 。 图 3-54 
中 的 例 程 打 印 一 个 链表 , 该 例 程 完全 合法 . 实际 上 是 正确 的 。 它 正常 地 处 理 空 表 的 基准 情 
JE. 并 且 递 归 也 没 问题 。 可 以 证 明 这 个 程序 是 正确 的 。 但 是 不 幸 的 是 , 如 果 这 个 链表 含有 
20 000 个 元 素 , 那么 就 有 表示 第 3 行 谋 套 调用 20 000 个 活动 记录 的 一 个 栈 。 典 型 的 情况 是 这 
些 活 动 记录 由 于 它们 包含 全 部 信息 而 特别 庞大 , 因此 这 个 程序 很 可 能 要 越 出 栈 空间 。( 如 果 
20 000 个 元 素 还 不 足以 使 程序 裔 溃 , 那么 可 用 更 大 的 个 数 代替 它 -) 





/* Bad use of recursion: Printing a linked list */ | 
/* No header */ | 


void 
PrintList( List L) 


{ 
Jas fC L t= NULL ) 
{ 
/* 2 PrintElement( L->Element ); 
VEI PrintList( L-»Next) ; 
) 





图 3-54 递归 的 不 当 使 用 : 打印 一 个 链表 


这 个 程序 称 为 尾 递归 (tail recursion), 是 使 用 极端 不 当 的 例子 。 尾 递归 涉及 在 最 后 一 行 
的 递归 调用 。 尾 递归 可 以 通过 将 递归 调用 变 成 goto 语句 并 在 其 前 加 上 对 函数 每 个 参数 的 赋 
值 语句 而 手工 消除 。 它 模拟 了 递归 调用 , 因为 没有 什么 需要 存储 ; 在 递归 调用 结束 之 后 , K 
际 上 没有 必要 知道 存储 的 值 。 因 此 , 我 们 就 可 以 带 着 在 一 次 递归 调用 中 已 经 用 过 的 那些 值 go 
to 到 函数 的 顶部 。 图 3-55 中 的 程序 显示 图 3-54 的 改进 后 的 程序 。 记 住 ,你 应 该 使 用 更 自然 
的 while 循环 结构 。 此 处 使 用 goto 是 为 说 明 编译 器 如 何 自动 地 去 除 递归 。 





/* Printing a linked list non-recursively */ 
/* Uses a mechanical translation */ 
/* No header */ 


void 
PrintList( List L ) 


top: 
ifCL f= NULL ) 


Printélement( L-»Element ); 
L = L->Next; 
goto top: 
j 
H 








图 3-55. 不 用 递归 打印 一 个 表 ; 编译 器 可 以 完成 这 项 工作 (你 不 要 去 做 ) 


尾 递 归 的 去 除 是 如 此 地 简单 , 以 致 某 些 编译 器 能 够 自动 地 完成 。 但 是 即使 如 此 , 最 好 还 
是 你 的 程序 自己 去 除 它 。 

递归 总 能 够 被 彻底 除去 (编译 器 是 在 转变 成 汇编 语言 时 完成 的 ), 但 是 这 么 做 是 相当 元 长 
三 味 的 。 一 般 方法 是 要 求 使 用 一 个 栈 , 而 且 仅 当 你 能 够 把 最 低 限 度 的 最 小 值 放 到 栈 上 时 ,这 
个 方法 才 值 得 一 用 。 我 们 将 不 对 此 做 进一步 的 详细 讨论 ， 只 是 指出 ,虽然 非 递归 程序 一 般 说 
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来 确实 比 等 价 的 递归 程序 要 快 , 但 是 速度 优势 的 代价 却 是 由 于 去 除 递归 而 使 得 程序 清晰 性 变 
得 不 足 。 


3.4 队列 ADT 


像 栈 一 样 , 队列 (queue) 也 是 表 。 然 而 , 使 用 队列 时 插入 在 一 端 进行 而 删除 则 在 另 一 端 进 
行 。 
3.4.1 队列 模型 

队列 的 基本 操作 是 Enqueue (ABA), 它 是 在 表 的 末端 (叫做 队 尾 (rear)) 插 入 一 个 元 素 , 还 
有 Dequeue( 出 队 ), 它 是 删除 (或 返回 ) 在 表 的 开头 (叫做 队 头 (front) ) 的 元 素 。 图 3-56 显示 一 
个 队列 的 抽象 模型 。 








Dequeue Q) Enqueue (Q,) 


Queue Q 











图 3-56 ”队列 模型 
3.4.2 队列 的 数组 实现 
如 同 栈 的 情形 一 样 , 对 于 队列 而 言 任何 表 的 实现 都 是 合法 的 。 像 栈 一 样 ， 对 于 每 一 种 操 
Me, 链表 实现 和 数组 实现 都 给 出 快速 的 O(1) 运 行 时 间 。 队 列 的 链表 实现 是 直接 的 ， 留 作 练 
习 。 现 在 我 们 讨论 队列 的 数组 实现 。 








对 于 每 一 个 队列 数据 结构 ,我们 保留 一 个 数组 Queue ] 以 及 位 置 Front 和 Rear, 它们 代 
表 队列 的 两 端 。 我 们 还 要 记录 实际 存在 于 队列 中 的 元 素 的 个 数 Size。 所 有 这 些 信息 是 作为 
一 个 结构 的 一 部 分 ， 除 队列 例 程 本 身 外 通常 不 会 有 例 程 直接 访问 它们 。 下 图 表示 处 于 某 个 中 
间 状 态 的 一 个 队列 。 顺 便 指出 , 图 中 那些 空白 单元 是 有 着 不 确定 的 值 的 。 特 别 地 , 前 三 个 单 
元 含有 曾经 属于 该 队列 的 元 素 。 
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Front Rear 

















操作 应 该 是 清楚 的 。 为 使 一 个 元 素 X AGA, 我 们 让 Size 和 Rear 38 1, 然后 置 Queue 
[Rear] = X。 若 使 一 个 元 素 出 队 , 我 们 置 返回 值 为 Queve[ Front], Size W1, 然后 使 Front 
增 1。 也 可 能 有 其 他 的 策略 (将 在 后 面 讨论 )。 现 在 论述 错误 的 检测 。 

这 种 实现 存在 一 个 潜在 的 问题 。 经 过 10 次 人 队 后 队列 似乎 是 满 了 ， 因 为 Rear 现在 是 
10, 而 下 一 次 再 人 队 就 会 是 一 个 不 存在 的 位 置 。 然 而 ,队列 中 也 许 只 存在 几 个 元 素 ， 因为 若 
干 元 素 可 能 已 经 出 队 了 。 像 栈 一 样 ， 即使 在 有 许多 操作 的 情况 下 队列 也 常常 不 是 很 大 。 

简单 的 解决 方法 是 , 只 要 Front 或 Rear 到 达 数组 的 尾 端 , 它 就 又 绕 回 到 开头 。 下 图 显示 
在 某 些 操作 期 间 的 队列 情况 。 这 叫做 循环 数组 (circular array) 实 现 。 

实现 回 绕 所 需要 的 附加 代码 是 极 小 的 (虽然 它 可 能 使 得 运行 时 间 加 倍 )。 如 果 Front 或 
Rear 增 1 使 得 超越 了 数组 , 那么 其 值 就 要 重 置 为 数组 的 第 一 个 位 置 。 
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Rear = Front 
经 过 Dequeue 并 返回 2 后 








Rear Front 


经 过 Dequeue 并 返回 4 后 


TT 
1| 3 | 2/4 

















— 
经 过 Dequeue 并 返回 1 


'BETI HE 
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Rear 
Front. 


经 过 Dequeue 并 返回 3 后 同时 使 队列 为 空 
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Rear Front 


关于 队列 的 循环 实现 , 有 两 件 事情 要 警惕 。 第 一 ,检测 队列 是 否 为 空 是 很 重要 的 ， 因 为 
当 队列 为 空 时 一 次 Dequeue 操作 将 不 知 不 觉 地 返回 一 个 不 确定 的 值 。 第 二 ， 某 些 程序 设计 人 
员 使 用 不 同 的 方法 来 表示 队列 的 队 头 和 队 尾 。 例 如 ,， 有些 人 并 不 用 一 个 单元 来 表示 队列 的 大 
小 , 因为 他 们 依靠 的 是 基准 情形 , 即 当 队列 为 空 时 Rear = Front - 1。 队列 的 大 小 是 通过 比 
较 Rear i Front 隐 式 算出 的 。 这 是 一 种 非常 隐秘 的 方法 ,因为 存在 某 些 特殊 的 情形 , 因此 ， 
如 果 你 需要 修改 用 这 种 方式 编写 的 代码 , 那么 你 就 要 特别 仔细 。 如 果 队 列 的 大 小 不 是 结构 的 
一 部分, 那么 若 数组 的 大 小 为 ASize, 则 当 存 在 ASize — 1 个 元 素 时 队列 就 满 了 ,因为 只 有 
ASize 个 不 同 的 大 小 值 可 被 区 分 , 而 0 是 其 中 的 一 个 。 采 用 任意 一 种 你 喜欢 的 风格 , 但 要 确 
保 你 的 所 有 例 程 都 是 一 致 的 。 由 于 实现 方法 有 多 种 选择 , 因此 如 果 你 不 使 用 表示 大 小 的 域 ， 
那 就 很 可 能 有 必要 进行 一 些 讨 论 ， 否则 会 在 一 个 程序 中 使 用 两 种 选择 。 

在 保证 Engueue 的 次 数 不 会 大 于 队列 的 大 小 的 应 用 中 , 使 用 回 绕 是 没有 必要 的 。 像 栈 一 
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样 , 除非 主 调 例 程 肯定 队列 非 空 , 否则 Degueue 很 少 执行 。 因 此 对 这 种 操作 ,只 要 不 是 关键 
的 代码 , 错误 的 调用 常常 被 跳 过 。 一 般 说 来 这 并 不 是 无 可 非议 的 , 因为 你 可 能 得 到 的 时 间 节 
省 量 是 极 小 的 。 

我 们 通过 编写 某 些 队列 的 例 程 来 结束 本 节 , 其 余 例 程 留 作 练 习 。 首 先 , 在 图 3-57 中 给 出 
队列 的 声明 。 正 如 对 于 栈 的 数组 实现 所 做 的 那样 , 我 们 添加 一 个 最 大 大 小 的 域 。 还 需要 提供 
例 程 CreateQueue 和 DisposeQueue。 此 外 ,我 们 还 要 提供 测试 一 个 队列 是 否 为 空 的 例 程 以 及 
构造 一 个 空 队列 的 例 程 (图 3-58 和 图 3-59)。 读 者 可 以 编写 函数 [5Full, 它 完 成 其 名 字 所 指出 
的 功能 。 注 意 ，Rear 在 Front 之 前 预 初始 化 为 1。 我 们 将 要 编写 的 最 后 的 操作 是 Enqueue 例 
程 。 严 格 遵循 上 面 的 描述 , 我 们 在 图 3-60 得 到 队列 的 数组 实现 。 





#ifndef _Queue_h 


struct QueueRecord; 
typedef struct QueueRecord *Queue; 


int IsEmpty( Queue Q ); 

int IsFu11( Queue Q ); 

Queue CreateQueue( int MaxElements ); 
void DisposeQueue( Queue Q ); 

void MakeEmpty( Queue Q 2; 

void Enqueue( ElementType X, Queue Q ): 
ElementType Front( Queue Q ); 

void Dequeue( Queue Q ); 

ElementType FrontAndDequeue( Queue Q ); 


wendif /* Queue. h */ 


/* Place in implementation file */ 
/* Queue implementation is a dynamically allocated array */ 
define MinQueueSize ( 5 ) 


struct QueueRecord 
{ : 


int Capacity; 

int Front; 

int Rear; 

int Size; 
ElementType *Array; 











图 3-57 队列 的 类 型 声明 


int 
Istmpty( Queue Q ) 





return Q->Size == 0; 











图 3-58 ”测试 队列 是 否 为 空 的 例 程 一 数组 实现 


void 
MakeEmpty( Queue Q ) 
1 





Q->Size = 0; 
Q->Front = 1; 
Q-»Rear = 0; 


) 











图 3-59 构造 空 队列 的 例 程 一 一 数组 实现 
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static int 
Succ( int Value, Queue Q ) 


if( e Value == Q->Capacity ) 
Value = 0: 

return Value; | 

| 4 | 


| void 
Enqueue( ElementType X, Queue Q ) 


if( IsFull(Q ) ) 
Error( "Full queue" ); 
else 


Q->Size++; 
Q-»Rear = Succ( Q->Rear, Q ); 
Q->Array[ Q-»Rear ] = X; 
| } 
) 











图 3-60 入 队 的 例 程 一 一 数组 实现 


3.4.3 队列 的 应 用 

有 几 种 使 用 队列 给 出 提高 运行 效率 的 算法 。 它 们 当中 有 些 可 以 在 图 论 中 找到 , 我 们 将 在 
第 9 章 讨论 它们 。 这 里 , 先 给 出 某 些 应 用 队列 的 例子 。 

当 作业 送 交 给 一 台 行 式 打印 机 , 它们 就 按照 到 达 的 顺序 被 排列 起 来 。 因 此 , 被 送 往 行 式 
打印 机 的 作业 基本 上 是 被 放 到 一 个 队列 中 。> 

实际 生活 中 的 每 次 排队 都 (应 该 ) 是 一 个 队列 。 例 如 , 在 一 些 售票 口 排列 的 队 都 是 队列 
因为 服务 的 顺序 是 先 来 到 的 先 买 票 。 

另 一 个 例子 是 关于 计算 机 网 络 的 。 有 许多 种 PC 机 的 网 络 设置 , 其 中 磁盘 是 放 在 一 台 叫 
做 文件 服务 器 的 机 器 上 的 。 使 用 其 他 计算 机 的 用 户 是 按照 先 到 先 使 用 的 原则 访问 文件 的 , 因 
此 其 数据 结构 是 一 个 队列 。 

进一步 的 例子 如 下 : 

。 当 所 有 的 接线 员 忙 得 不 可 开交 的 时 候 , 对 大 公司 的 传呼 一 般 都 被 放 到 一 个 队列 中 。 

。 在 大 规模 的 大 学 里 , 如 果 所 有 的 终端 都 被 占用 , 由 于 资源 有 限 , 学生 们 必须 在 一 个 等 

待 表 上 答 字 。 在 终端 上 呆 得 时 间 最 长 的 学 生 将 首先 被 强制 离开 , 而 等 待 时 间 最 长 的 
学 生 则 将 是 下 一 个 被 允许 使 用 终端 的 用 户 。 

处 理 用 概率 的 方法 计算 用 户 排队 预计 等 待 时 间 、 等 待 服务 的 队列 能 够 排 多 长 ,以 及 其 他 
二 此 诸如 此 类 的 问题 将 用 到 被 称 为 排队 论 (aueueing theory) 的 整个 数学 分 支 。 问 题 的 答案 依 
赖 于 用 户 加 入 队列 的 频率 以 及 一 旦 用 户 得 到 服务 时 处 理 服务 花费 的 时 间 。 这 两 个 参数 作为 慨 
率 分 布 函数 给 出 。 在 一 些 简单 的 情况 下 , 答案 可 以 解析 算出 。 一 种 简单 的 例子 是 一 条 电话 线 
有 一 个 接线 员 。 如 果 接 线 员 忙 , 打 来 的 电话 就 被 放 到 一 个 等 待 队列 中 (这 还 与 某 个 容许 的 最 
大 限度 有 关 )。 这 个 问题 在 商业 上 很 重要 , 因为 研究 表明 ， 人 们 会 很 快 挂 上 电话 。 

MERMA 个 接线 员 , 那么 这 个 问题 解决 起 来 要 困难 得 多 。 解 析 求 解困 难 的 问题 往往 
使 用 模拟 的 方法 求解 。 此 时 ,我 们 需要 使 用 一 个 队列 来 进行 模拟 。 如 果 k RAK, 那么 我 们 还 


35， 我 们 说 基本 上 是 因为 作业 可 以 被 除去 - 这 等 于 从 队列 的 中 间 进行 的 一 次 副 除 , 它 违反 了 队列 的 严格 定义 。 
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需要 其 他 一 些 数据 结构 来 使 得 模拟 更 有 效 地 进行 。 在 第 6 章 将 会 看 到 模拟 是 如 何 进行 的 。 那 
时 我 们 将 对 的 若干 值 进行 模拟 并 选择 能 够 给 出 合理 等 待 时 间 的 最 小 的 4。 

正如 栈 一 样 ， 队列 还 有 其 他 丰富 的 用 途 , 这 样 一 种 简单 的 数据 结构 竟然 能 够 如 此 重要 ， 
实在 令 人 惊奇 。 


总 结 


本 章 描述 了 一 些 ADT 的 概念 , 并 且 利用 三 种 最 常见 的 抽象 数据 类 型 (ADT) 和 阐述 了 这 个 
概念 。 主 要 目的 就 是 将 抽象 数据 类 型 的 具体 实现 与 它们 的 功能 分 开 。 程 序 必须 知道 操作 都 做 
些 什么 , 但 是 如 果 不 知道 如 何 去 做 实际 上 更 好 。 

表 、 栈 和 队列 或 许 在 全 部 计算 机 科学 中 是 三 个 基本 的 数据 结构 , 大 量 的 例子 证 明了 它们 
广泛 的 用 途 。 特 别 地 , 我 们 看 到 栈 是 如 何 用 来 记录 过 程 和 函数 调用 的 ,以 及 递归 实际 上 是 如 
何 实现 的 。 理 解 这 些 过 程 是 非常 重要 的 , 其 原因 不 只 因为 它 使 得 过 程 语言 成 为 可 能 ， 而且 还 
因为 知道 递归 的 实现 从 而 消除 了 围绕 其 使 用 的 大 量 谜团 。 虽 然 递归 非常 强大 , 但 是 它 并 不 是 
完全 随意 的 操作 ; 递归 的 误 用 和 乱用 可 能 导致 程序 崩溃 。 


练习 


3.1 编写 打印 出 一 个 单 链表 的 所 有 元 素 的 程序 。 

3.2 给 你 一 个 链表 L 和 另 一 个 链表 PP, 它们 包含 以 升序 排列 的 整数 。 操 作 PrintLots(L, P) 
将 打印 上 中 那些 由 P 所 指定 的 位 置 上 的 元 素 。 例 如 , WR p = 1, 3, 4, 6, 那么 , 上 中 
的 第 1、 第 3、 第 4 和 第 6 个 元 素 被 打印 出 来 。 写 出 过 程 PrintLots( 工 ，P)。 你 应 该 只 使 
用 基本 的 表 操作 。 该 过 程 的 运行 时 间 是 多 少 ? 

3.3 通过 只 调整 指针 (而 不 是 数据 ) 来 交换 两 个 相 邻 的 元 素 , 使 用 
a. 单 链表 。 
b. 双 链 表 。 

3.4 给 定 两 个 已 排序 的 表 Li 和 Li， 只 使 用 基本 的 表 操作 编写 计算 LN La 的 过 程 。 

3.5 给 定 两 个 已 排序 的 表 L, 和 Lo 只 使 用 基本 的 表 操作 编写 计算 LU L 的 过 程 。 

3.6 ”编写 将 两 个 多 项 式 相 加 的 函数 。 不 要 毁坏 输入 数据 。 用 一 个 链表 实现 。 如 果 这 两 个 多 
项 式 分 别 有 M 项 和 NN 项 , 那么 你 的 程序 的 时 间 复杂 度 是 多 少 ? 

3.7 ”编写 一 个 函数 将 两 个 多 项 式 相 乘 ,用 一 个 链表 实现 。 你 必须 保证 输出 的 多 项 式 按 宕 次 
排列 并 且 最 多 有 一 项 为 任意 罕 。 
a. 给 出 以 O(M2N2) 时 间 求 解 该 问题 的 算法 。 

»b. 编写 一 个 以 O(M2N) 时间 执 行 乘法 的 程序 , 其 中 M 是 具有 较 少 项 数 的 多 项 式 的 
项 数 。 
»c. 编写 一 个 以 OUM N log (MN) ) 时 间 执行 乘法 的 程序 。 

d. 上 面 哪个 的 时 间 界 最 好 ? 

3.8 编写 一 个 程序 , 输入 一 个 多 项 式 F(X), 计算 出 (F(X))?。 你 的 程序 的 时 间 复 杂 度 是 
多 少 ? 至 少 再 提出 一 种 对 F(X) 和 P 的 某 些 可 能 的 选择 具有 竞争 性 的 解法 。 

3.9 编写 任意 精度 整数 运算 包 。 要 使 用 类 似 于 多 项 式 运算 的 方法 。 计 算 在 24000 内 数字 0 到 
9 的 分 布 。 
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3.10 Josephus 问题 是 下 面 的 游戏 : N 个 人 从 1 到 N 编号 , 围 坐 成 一 个 圆圈 。 从 1 号 开始 传 
MALT. Bit M 次 传递 后 拿 着 热土 豆 的 人 被 清除 离 座 , 围 坐 的 圆圈 缩 紧 , 由 
坐 在 被 清除 的 人 后 面 的 人 拿 起 热土 豆 继续 进行 游戏 。 最 后 剩 下 的 人 取胜 。 因 此 , 如果 
M = 0 和 AN = 5, 则 依次 被 清除 后 , 5 号 获胜 。 如 果 M = LEN = 5, 那么 被 清除 
的 人 的 顺序 是 2, 4, 1, 5。 
a. 编写 一 个 程序 解决 M BUN 在 一 般 值 下 的 Josephus 问题 , 应 使 你 的 程序 尽 可 能 地 高 
效 , 要 确保 能 够 清除 单元 。 
b. 你 的 程序 的 运行 时 间 是 多 少 ? 
c. 如 果 M = 1, 你 的 程序 的 运行 时 间 是 多 少 ? 对 于 大 的 N(N>10 000), 其 free 例 
程 是 如 何 影响 实际 速度 的 ? 
3.11 编写 查找 一 个 单 链表 特定 元 素 的 程序 。 分 别 用 递归 和 非 递归 方法 实现 , 并 比较 它们 的 
运行 时 间 。 链 表 必 须 达 到 多 大 才能 使 得 使 用 递归 的 程序 崩溃 ? 
3.12 a. 编写 一 个 非 递归 过 程 以 O(N) 时 间 反 转 单 链表 。 
* b. 使 用 常数 附加 空间 编写 一 个 过 程 以 O( NN) 时间 反 转 单 链表 。 
3.13 ”利用 社会 安全 号 码 对 学 生 记 录 构 成 的 数组 排序 。 编 写 一 个 程序 进行 这 件 工作 , 使 用 具 
有 1 000 个 桶 的 基数 排序 并 分 三 趟 进行 。 
3.14 ”编写 一 个 程序 将 一 个 图 读 人 邻接 表 , 使 用 
a. 链表 
b. 游标 
3.15 a. 写 出 自 调整 (self-adjusting) 表 的 数组 实现 。 自 调整 表 如 同一 个 规则 的 表 , 但 是 所 有 
的 插入 都 在 表 头 进行 ， 当 一 个 元 素 被 Find 访问 时 , 它 就 被 移 到 表 头 而 并 不 改变 其 
余 的 项 的 相对 顺序 。 
- b. 写 出 自 调整 表 的 链表 实现 。 
sc. 设 每 个 元 素 都 有 其 被 访问 的 固定 概率 p;。 证 明 那 些 具 有 最 高 访问 概率 的 元 素 都 靠 
3.16 ”假设 我 们 有 一 个 基于 数组 的 表 A[0..N - 1], 并 且 我 们 想 要 删除 所 有 相同 的 元 素 。 
LastPosition 初始 值 为 N 1, 但 该 值 随 着 相同 元 素 被 删除 而 变 得 越 来 越 小 。 考 虑 图 [86] 
3-61 中 的 伪 码 程序 段 。 过 程 Delete 删除 位 置 ; 上 的 元 素 并 使 表 破坏 。 








| /* le/ for(i = 0; i < LastPosition; i++ ) 
{ 


/* 2/ jede 


/* 3 while( j < LastPosition ) 
Path 4fCAL i J - AC 3 12 
fts Delete j 2: 

eise 
feu je: 


! 








图 3-61 从 表 中 删除 重 元 素 的 例 程 一 一 数组 实现 


a. 解释 该 过 程 是 如 何 进行 工作 的 。 
b. 利用 一 般 的 表 操 作 重 写 这 个 过 程 。 
«c. 如 用 标准 的 数组 实现 , 则 这 个 过 程 的 运行 时 间 是 多 少 ? 





[87] 
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d. 使 用 链表 实现 的 运行 时 间 是 多 少 ? 
+e. 给 出 一 个 算法 以 O(N logN) 时 间 解 决 该 问题 。 
**f. 证 明 : 如 果 只 使 用 比较 , 那么 解决 该 问题 的 任何 算法 都 需要 O(N logN) 次 比较 。 
(提示 : 见 第 7 章 。) 
*g. 证 明 : 如 果 我 们 允许 除 比较 之 外 的 其 他 操作 , 并 且 这 些 关 键 字 都 是 实数 , 那么 我 们 
不 用 元 素 间 的 比较 就 可 以 解决 该 问题 。 
3.17 不 同 于 我 们 已 经 给 出 的 删除 方法 ， 另 一 种 是 使 用 懒惰 删除 (lazy deletion) 的 方法 。 为 了 
删除 一 个 元 素 , 我 们 只 标记 上 该 元 素 被 副 除 (使 用 一 个 附加 的 位 (bit) 域 )。 表 中 被 删除 
和 非 被 删除 元 素 的 个 数 作为 数据 结构 的 一 部 分 被 保留 。 如 果 被 删除 元 素 和 非 被 删除 元 
素 一 样 多 , 我 们 遍历 整个 表 , 对 所 有 被 标记 的 节点 执行 标准 的 删除 算法 。 
a. 列 出 懒惰 删除 的 优点 和 缺点 。 
b. 编写 实现 使 用 懒惰 删除 的 标准 链表 操作 的 例 程 。 
3.18 ”用 下 列 语言 编写 检测 平衡 符号 的 程序 : 
a. Pascal (begin Zend, ( ), [ ], 1e 
b. Cl/# *^CSEL 1) e 
c. 解释 如 何 打印 出 错 信息 。 
3.19 ”编写 一 个 程序 计算 后 级 表达 式 的 值 。 
3.20 a. 编写 一 个 程序 将 中 级 表达 式 转换 成 后 级 表达 式 , 该 中 组 表达 式 包含“(”， 
ae AIMS 
b. 把 寡 操 作 符 添加 到 你 的 指令 系统 中 去 。 
c. 编写 一 个 程序 将 后 缀 表达 式 转换 成 中 组 表达 式 。 
3.21 编写 仅 用 一 个 数组 而 实现 两 个 栈 的 例 程 。 除 非 数组 的 每 一 个 单元 都 被 使 用 , 否则 你 的 
栈 例 程 不 能 有 溢出 声明 。 
3.22 «a. 提出 支持 栈 的 Push 和 Pop 操作 以 及 第 三 种 操作 FindMin 的 数据 结构 ,其 中 FindMin 
返回 该 数据 结构 的 最 小 元 素 , 所 有 操作 在 最 坏 的 情况 下 的 运行 时 间 都 是 O(1)。 
<b. 证 明 ， 如 果 我 们 加 入 第 四 种 操作 DeleteMin , 那么 至 少 有 一 种 操作 必须 花费 
Q(logN) 时 间 , 其 中 ，DeleteMin 找 出 并 删除 最 小 的 元 素 。( 本 题 需要 阅读 第 7 章 ) 
*3.23 说明 如 何 用 一 个 数组 实现 三 个 栈 。 
3.24 在 2.4 节 中 用 于 计算 斐 波 那 契 数 的 递归 例 程 如 果 在 N = 50 下 运行 , 栈 空间 有 可 能 用 
完 吗 ? 为 什么 ? 
3.25 ”编写 实现 队列 的 例 程 , 使 用 
a. 链表 
b. 数组 
3.26” 双 端 队列 (deque) 是 由 一 些 项 的 表 组 成 的 数据 结构 ， 对 该 数据 结构 可 以 进行 下 列 操作 : 
Push (X, D): 将 项 X 插入 到 双 端 队列 D 的 前 端 。 
Pop(D): 从 双 端 队列 D 中 删除 前 端 项 并 将 其 返回 。 
Inject(X, D): 将 项 X 插入 到 双 端 队列 也 的 尾 端 。 
Eject (D): 从 双 端 队列 D 中 删除 尾 端 项 并 将 其 返回 。 
编写 支持 双 端 队列 的 例 程 , 每 种 操作 均 花 费 O(1) 时 间 。 
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对 于 大 量 的 输入 数据 , 链表 的 线性 访问 时 间 太 慢 ,不宜 使 用 。 本 章 我 们 介绍 一 种 简单 的 
数据 结构 ,其 大 部 分 操作 的 运行 时 间 平 均 为 O(log N)。 我 们 还 要 简 述 对 这 种 数据 结构 在 概 
念 上 的 简单 的 修改 , 它 保证 了 在 最 坏 情形 下 的 上 述 时 间 界 。 此 外 , 还 讨论 了 第 一 种 修改 , 对 
于 长 的 指令 序列 它 对 每 种 操作 的 运行 时 间 基 本 上 是 O(log N)。 

我 们 涉及 到 的 这 种 数据 结构 叫做 二 又 查找 树 (binary search tree)。 在 计算 机 科学 中 树 
(tree) 是 非常 有 用 的 抽象 概念 , 因此 , 我 们 将 讨论 树 在 其 他 更 一 般 的 应 用 中 的 使 用 。 在 这 一 
章 , 我 们 将 : 

。 了 解 树 是 如 何 用 于 实现 几 个 流行 的 操作 系统 中 的 文件 系统 的 。 

* 看 到 树 如 何 能 够 用 来 计算 算术 表达 式 的 值 - 

* 指出 如 何 利用 树 支持 以 O(logN) 平 均 时 间 进 行 的 各 种 搜索 操作 , 以 及 如 何 细 化 以 得 到 

最 坏 情况 时 间 界 O(logN)。 我 们 还 将 讨论 当 数 据 被 存在 磁盘 上 时 如 何 来 实现 这 些 操作 


4.1 预备 知识 

树 (tree) 可 以 用 几 种 方式 定义 。 定 义 树 的 一 种 自然 的 旋 式 是 递归 的 方法 。 一 棵 树 是 一 些 
节点 的 集合 。 这 个 集合 可 以 是 空 集 ; 若非 空 , 则 一 棵 树 由 称 做 根 (root) 的 节点 r 以 及 0 个 或 
ENESCO Ti, To. . . Ti 组 成 , 这 些 子 树 中 每 一 棵 的 根 都 被 来 自 根 ~ 的 一 条 有 向 
的 边 (edge) 所 连接 。 

每 一 棵 子 树 的 根 叫 做 根 LF (child). 而 r 是 每 一 棵 子 树 的 根 的 父亲 (parent)。 图 4-1 
显示 用 递归 定义 的 典型 的 树 。 








图 4-1 一 般 的 树 
从 递归 定义 中 我 们 发 现 , 一 棵 树 是 N 个 节点 和 N - 1 条 边 的 集合 , 其 中 的 一 个 节点 叫 
做 根 。 存 在 N - 1 条 边 的 结论 是 由 下 面 的 事实 得 出 的 , 每 条 边 都 将 某 个 节点 连接 到 它 的 父 
亲 , 而 除去 根 节点 外 每 一 个 节点 都 有 一 个 父亲 ( 见 图 4-2)。 





图 4-2 ”一 棵 具体 的 树 
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在 图 4-2 的 树 中 , 节点 A 是 根 。 节 点 下 有 一 个 父亲 A 并 且 有 儿子 K、L 和 M。 每 一 个 节 
点 可 以 有 任意 多 个 儿子 , 也 可 能 是 零 个 儿子 。 没 有 儿子 的 节点 称 为 树叶 (leaf); 上 图 中 的 树叶 
是 B、C、H、I、P、Q、K、L、M 和 N。 具 有 相同 父亲 的 节点 为 兄弟 (sibling); Ak, K, LA 
M 都 是 兄弟 。 用 类 似 的 方法 可 以 定义 祖父 (grandparent) 和 和 孙子 (grandchild) 关 系 。 

从 节点 m 到 my 的 路 径 (path) 定 义 为 节点 n, n- m 的 一 个 序列 ,使 得 对 于 Sik, 
节点 n 是 ni41 的 父亲 。 这 个 路 径 的 长 (length) 为 该 路 径 上 的 边 的 条 数 , 即 上 一 1。 从 每 一 个 节点 
到 它 自己 有 一 条 长 为 0 的 路 径 。 注 意 , 在 一 棵 树 中 从 根 到 每 个 节点 恰好 存在 一 条 路 径 。 

对 任意 节点 n, n; 的 深度 (depth) 为 从 根 到 n; 的 惟一 路 径 的 长 。 因 此 , 根 的 深度 为 0。 
ni 的 高 (height) 是 从 n: 到 一 片 树叶 的 最 长 路 径 的 长 。 因 此 所 有 的 树叶 的 高 都 是 0。 一 棵 树 的 
高 等 于 它 的 根 的 高 。 对 于 图 4-2 中 的 树 , EE 的 深度 为 1 而 高 为 2; F 的 深度 为 1 而 高 也 是 1; 
该 树 的 高 为 3。 一 个 树 的 深度 等 于 它 的 最 深 的 树叶 的 深度 ; 该 深度 总 是 等 于 这 棵 树 的 高 。 

如 果 存 在 从 ni 到 n 的 一 条 路 径 , 那么 mi 是 n 的 一 位 祖先 (ancestor) 而 nz 是 n, 的 一 
SK Ft (descendant). WẸ ny % nz, 那么 ny 是 nz 的 一 位 真 祖先 (proper ancestor) i n; J& n; 
的 一 个 真 后 商 (proper descendant)。 
4.1.1 树 的 实现 

实现 树 的 一 种 方法 可 以 是 在 每 一 个 节点 除数 据 外 还 要 有 一 些 指针 ,使 得 该 节点 的 每 一 个 

[可 | 儿子 都 有 一 个 指针 指向 它 。 然 而 , 由 于 每 个 节点 的 儿子 数 可 以 变化 很 大 并 且 事 先 不 知道 , 因 
M 此 在 数据 结构 中 建立 到 各 儿子 节点 直接 的 链接 是 不 可 行 的 ,因为 这 样 会 产生 太 多 的 浪费 空 

间 。 实 际 上 解法 很 简单 : 将 每 个 节点 的 所 有 儿子 都 放 在 树 节点 的 链表 中 。 图 4-3 中 的 声明 就 
是 典型 的 声明 。 





typedef struct TreeNode *PtrToNode; 
struct TreeNode 
{ 

ElementType Element; 


PtrToNode — FirstChild; 
PtrfoNode — NextSibling; 


H 
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图 4-4 显示 一 棵 树 可 以 用 这 种 实现 方法 表示 出 来 。 图 中 向 下 的 箭头 是 指向 FirstChild( 第 
一 儿子 ) 的 指针 。 从 左 到 右 的 箭头 是 指向 NextSibling( 下 一 匈 弟 ) 的 指针 。 因 为 空 指针 太 多 ， 





所 以 没有 把 它们 画 出 。 
© 
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图 4.4 在 图 4-2 中 所 表示 的 树 的 第 一 儿子 /下 一 兄弟 的 表示 法 
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在 图 4-4 的 树 中 , 节点 E 有 一 个 指针 指向 兄弟 (F), 另 一 指针 指向 儿子 (D), 而 有 的 节点 
这 两 种 指针 都 没有 。 
4.1.2 树 的 遍历 及 应 用 

树 有 很 多 应 用 。 流 行 的 用 法 之 一 是 包括 UNIX, VAX/VMS 和 DOS 在 内 的 许多 常用 操 
作 系 统 中 的 目录 结构 。 图 4-5 是 UNIX 文件 系统 中 一 个 典型 的 目录 。 


bosk” course? jonke junko wok" m 
chr ar yr cop3$30* 0p3212* 
taioe spe97*suri97* fana" ip 


| | Nt | 
or syle sir grades pogle prog?r prog progit prades 


图 4-5 UNIX 目录 


这 个 目录 的 根 是 /usr。( 名 字 后 面 的 星 号 指出 “ /usr" 本 身 就 是 一 个 目录 。) /vsr" 有 三 个 儿 
F: mark, alex 和 bill, 它们 自己 也 都 是 目录 。 因 此 ,“ /sr" 包 含 三 个 目录 而 且 没 有 正规 的 文 
件 。 文 件 名 “/usr/mark/book/chl.r" 先 后 三 次 通过 最 左边 的 儿子 节点 而 得 到 。 在 第 一 个 “/” 
后 的 每 个 “/”" 都 表示 一 条 边 ; 结果 为 一 全 路 径 名 。 这 个 分 级 文件 系统 非常 流行 ,因为 它 能 够 
使 得 用 户 逻辑 地 组 织 数据 。 不 仅 如 此 ,在 不 同 目录 下 的 两 个 文件 还 可 以 享有 相同 的 名 字 ， 因 
为 它们 必然 有 从 根 开始 的 不 同 的 路 径 从 而 具有 不 同 的 路 径 名 。 在 UNIX 文件 系统 中 的 目录 
就 是 含有 它 的 所 有 儿子 的 一 个 文件 , 因此 , 这 些 目录 几乎 是 完全 按照 上 述 的 类 型 声明 构造 
的 C。 事 实 上 ,如 果 将 打印 一 个 文件 的 标准 命令 应 用 到 一 个 目录 上 , 那么 在 该 目录 中 的 这 些 
文件 名 能 够 在 (与 其 他 非 ASCII 信息 一 起 的 ) 输 出 中 被 看 到 。 

设 我 们 想 要 列 出 目录 中 所 有 文件 的 名 字 。 我 们 的 输出 格式 将 是 : 深度 为 di 的 文件 的 名 
字 将 被 d; 次 跳 格 (tab) 缩 进 后 打印 出 来 。 该 算法 在 图 4-6 中 给 出 。 








static void 
ListDir( DirectoryOrFile D, int Depth ) 


{ 
ey if( D is a legitimate entry ) 


{ 
E PrintName( D, Depth ); 


EI 3fCD is a directory ) 
Jn at] for each child, C, of D 
n ListDir( C, Depth + 1); 
) 
) 
void 


ListDirectory( DirectoryOrFile D ) 


ListDir( D, 0); 








图 4-6 ” 列 出 分 级 文件 系统 中 目录 的 例 程 
O 在 UNIX 文件 系统 中 每 个 目录 还 有 一 项 指向 该 目录 本 身 以 及 另 一 项 指向 该 目录 的 父 日 录 。 因 此 , 严格 说 来 ， 
UNIX 文 件 系统 不 是 树 ,而 是 类 树 (treelike)。 
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算法 的 核心 为 递归 过 程 ListDir。 为 了 显示 根 时 不 进行 缩 进 , 该 例 程 需要 从 目录 名 和 深度 
0 开始 。 这 里 的 深度 是 一 个 内 部 簿 记 变 量 , 而 不 是 主 调 例 程 能 够 期 望 知道 的 那 种 参数 。 因 
JG, 驱动 例 程 ListDirectory 用 于 将 递归 例 程 和 外 界 连接 起 来 。 

算法 逻辑 简单 易 懂 。ListDir 的 参数 是 到 树 中 的 某 种 引用 。 只 要 引用 合理 , 则 引用 涉及 的 
名 字 在 进行 适当 次 数 的 跳 格 缩 进 后 被 打印 出 来 。 如 果 是 一 个 目录 , 那么 我 们 递归 地 一 个 一 个 
地 处 理 它 所 有 的 儿子 。 这 些 儿子 处 在 一 个 深度 上 , 因此 需要 缩 进 一 段 附加 的 空格 。 整 个 输出 
在 图 4-7 中 表示 。 


Vusr 
mark 











图 4-7 目录 ( 先 序 ) 列 表 


这 种 遍历 的 策略 叫做 先 序 遍 历 (preorder taversal)。 在 先 序 遍 历 中 , 对 节点 的 处 理工 作 是 在 
它 的 诸 儿子 节点 被 处 理 之 前 (pre) 进 行 的。 当 该 程序 运行 时 ， 显 然 第 二 行 对 每 个 节点 恰好 执行 一 
次 , 因为 每 个 名 字 只 输出 一 次 。 由 于 第 2 行 对 每 个 节点 最 多 执行 一 次 , 因此 第 3 行 也 必须 对 每 
个 节点 执行 一 次 。 不 仅 如 此 , 对 于 每 个 节点 的 每 一 个 儿子 节点 第 5 行 最 多 只 能 被 执行 一 次 。 不 
过 ,儿子 的 个 数 恰好 比 节点 的 个 数 少 1。 最 后 , 第 5 行 每 执行 一 次 , for 循环 就 迭代 一 次 , 每 当 循 
环 结束 时 再 加 上 一 次 。 每 个 for 循环 终止 在 NULL 指针 上 ， 但 每 个 节点 最 多 有 一 个 这 样 的 指针 。 
因此 , 每 个 节点 总 的 工作 量 是 常数 。 如 果 有 N 个 文件 名 需要 输出 , 则 运行 时 间 就 是 O(N)。 

另 一 种 遍历 树 的 方法 是 后 序 遍历 (postorder traversal)。 在 后 序 遍 历 中 ， 在 一 个 节点 处 的 
工作 是 在 它 的 诸 儿 子 节点 被 计算 后 (post) 进 行 的 。 例 如 , 图 4-8 表示 的 是 与 前 面相 同 的 目录 
结构 ,其 中 圆 括号 内 的 数 代表 每 个 文件 占用 的 磁盘 区 块 (disk block) 的 个 数 。 

由 于 目录 本 身 也 是 文件 , 因此 它们 也 有 大 小 。 设 我 们 想 要 计算 被 该 树 所 有 文件 占用 的 磁 
盘 块 的 总 数 。 最 自然 的 做 法 是 找 出 含 于 子 目 录 “/usr/mark(30)”、“/usr/alex(9)” 和 “Ausr/b 记 
(32)” 的 块 的 个 数 。 于 是 , 磁盘 块 的 总 数 就 是 子 目录 中 的 块 的 总 数 (71) 加 上 “/usr" 使 用 的 一 
个 块 , 共 72 个 块 。 图 4-9 中 的 函数 SizeDirectory 实现 这 种 遍历 策略 。 
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图 4-8 经 由 后 序 遍 历 得 到 的 具有 文件 大 小 的 Unix 目录 
Static void 


SizeDirectory( DirectoryOrFile D ) 
{ 





int TotalSize; 


DE TotalSize - 0; 


LUPA if( D is a legitimate entry ) 
{ 

EVI TotalSize = FileSize( D ); 

E ifCD is a directory ) 

/Le Ss/ for each child, C, of D 

/* e TotalSize += SizeDirectory( C ); 
} 

pr return TotalSize; 








图 4-9 计算 一 个 目录 大 小 的 例 程 


WR D 不 是 一 个 目录 , 那么 SizeDirectory 只 返回 D 所 占用 的 块 数 。 否 则 , BED 占用 的 块 
数 将 被 加 到 在 其 所 有 子 节点 (递归 地 ) 发 现 的 块 数 中 去 。 为 了 区 别 后 序 遍 历 策略 和 先 序 遍 历 策 





略 之 间 的 不 同 ， 图 4-10 显示 每 个 目录 或 文件 的 大 小 是 如 何 由 该 算法 产生 的 。 

chl.r 3 
ch2.r 2 
ch3.r 4 
book 10 
syle 1 
fa1196 2 
Sy.r 5 
spr97 6 
syr 2 
Sum97 3 
cop3530 12 
course 3 
junk.c 6 
mark 30 
junk.c 8 
alex 9 
work 1 
grades 3 

Progi.r 4 | 
prog.r 1 
fa1196 3 
prog2.r 2 
progl.r 7 
grades 9 
fa1197 19 
cop3212 29 
course 30 
| bim 32 
| /use 72 











图 4-10 ”函数 SizeDirectory 的 轨迹 
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4.2 二 叉 树 


二 又 树 (binary tree) 是 一 标 树 ， 其 中 每 个 节点 都 不 能 有 多 于 两 个 的 儿子 。 
图 4-11 显示 一 棵 由 一 个 根 和 两 棵 子 树 组 成 的 二 叉 树 ，TL 和 Te 均 可 能 为 空 。 


© 


PN 


图 4-11 一 般 二 又 树 


二 叉 树 的 一 个 性 质 是 平均 二 叉 树 的 深度 要 比 N 小 得 多 ， 
这 个 性 质 有 时 很 重要 。 分 析 表 明 , 这 个 平均 深度 为 O(VN )， 
而 对 于 特殊 类 型 的 二 又 树 , 即 二 又 查找 树 (binary search tree), 
其 深度 的 平均 值 是 O(log N)。 不 幸 的 是 , 正如 图 4-12 中 的 
例子 所 示 , 这 个 深度 是 可 以 大 到 N 一 1 的 。 
4.2.1 实现 

因为 一 棵 二 叉 树 最 多 有 两 个 儿子 ， 所 以 我 们 可 以 用 指针 
直接 指向 它们 。 树 节点 的 声明 在 结构 上 类 似 于 双 链表 的 声明 ， 图 4.12 RUMINUS OU 
在 声明 中 , 一 个 节点 就 是 由 Key( 关 键 字 ) 信 息 加 上 两 个 指向 其 他 节点 的 指针 (Left 和 Right) 
组 成 的 结构 ( 见 图 4-13)。 

应 用 于 链表 上 的 许多 法 则 也 可 以 应 用 到 树 上 。 特 别 地 ， 当 进行 一 次 插入 时 ,必须 调用 
malloc 创建 一 个 节点 。 节 点 可 以 在 调用 free 删除 后 被 释放 。 

我 们 可 以 用 习惯 上 在 画 链 表 时 使 用 的 矩形 框 画 出 二 叉 树 , 但 是 , 树 一 般 画 成 圆 图 并 用 一 
些 直线 连接 起 来 ,因为 二 又 树 实际 上 就 是 图 (graph)。 当 涉及 到 树 时 ， 我 们 也 不 明显 地 画 出 
NULL 指针 ,因为 具有 N 个 节点 的 每 一 棵 二 又 树 都 将 需要 N + 1 个 NULL 指针 。 








typedef struct TreeNode *PtrToNode; 
typedef struct PtrToNode Tree: 


struct TreeNode 


ElementType Element; 
Tree Left; 
Tree Right; 

B 











图 4-13 二 丸 树 节点 声明 


二 叉 树 有 许多 与 搜索 无 关 的 重要 应 用 。 二 叉 树 的 主要 用 处 之 一 是 在 编译 器 的 设计 领域 ， 


我 们 现在 就 来 探索 这 个 问题 。 


4.2.2 ”表达 式 树 
4-14 表示 一 个 表达 式 树 (expression tree) 的 例子 。 表 达 式 树 的 树叶 是 操作 数 (operand)， 
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比如 常数 或 变量 ,而 其 他 的 节点 为 操作 符 (operator) 。 由 于 这 里 所 有 的 操作 都 是 二 元 的 ,因此 
这 棵 特定 的 树 正好 是 二 叉 树 , 虽然 这 是 最 简单 的 情况 , 但 是 节点 还 是 有 可 能 含有 多 于 两 个 的 
儿子 的 。 一 个 节点 也 有 可 能 只 有 一 个 儿子 , 如 具有 一 目 减 算 符 (unary minus operator) 的 情形 。 
我 们 可 以 将 通过 递归 计算 左 子 树 和 右 子 树 所 得 到 的 值 应 用 在 根 处 的 算 符 操作 中 而 算出 表达 式 
树 工 的 值 。 在 我 们 的 例 中 , 左 子 树 的 值 是 “a + (b c)”, 右 子 树 的 值 是 "((d * e) + D * g^, 
因此 整个 树 表示 “(a + (b * e) + (((d * e) + D * g)”o 





图 4-14 "(a + b * c) r((d * e+ f)*g)" 的 表达 式 树 


我 们 可 以 通过 递归 产生 一 个 带 括号 的 左 表 达 式 , 然后 打印 出 在 根 处 的 运算 符 , Ba TER 
归 地 产生 一 个 带 括号 的 右 表达 式 而 得 到 一 个 (对 两 个 括号 整体 进行 运算 的 ) 中 组 表达 式 (infix 
expression)。 这 种 一 般 的 方法 ( 左 ， 节 点 , 右 ) 称 为 中 序 遍 历 (inorder traversal); 由 于 其 产生 的 
表达 式 类 型 , 这 种 遍历 很 容易 记忆 。 

另 一 个 遍历 策略 是 递归 打印 出 左 子 树 、 右 子 树 ,然后 打印 运算 符 。 如 果 我 们 应 用 这 种 策 
略 于 上 面 的 树 ， 则 输出 将 是 abc * + de * f+ g* +", 容易 看 出 , 它 就 是 3.3.3 节 中 的 
后 级 表达 式 。 这 种 遍历 策略 一 般 称 为 后 序 遍 历 (postorder traversal)。 我 们 稍 早已 在 4.1 节 见 
过 这 种 排序 策略 。 

第 三 种 遍历 策略 是 先 打印 出 运算 符 , 然后 递归 地 打印 出 右 子 树 和 左 子 树 。 其 结果 “+ + a 
* be + * defg" 是 不 太 常 用 的 前 缓 (prefix) 记 法 ， 这 种 遍历 策略 为 先 序 遍历 (preorder traver- 
sal) , 稍 早 我 们 也 在 4.1 节 见 过 它 。 以 后 , 我 们 还 要 在 本 章 讨论 这 些 遍历 策略 。 
构造 一 棵 表达 式 树 

我 们 现在 给 出 一 种 算法 来 把 后 缀 表达 式 转变 成 表达 式 树 。 由 于 我 们 已 经 有 了 将 中 级 表达 
式 转变 成 后 缀 表达 式 的 算法 ， 因 此 我 们 能 够 从 这 两 种 常用 类 型 的 输入 生成 表达 式 树 。 所 描述 
的 方法 酷似 3.2. 3 节 的 后 级 求 值 算法 。 我 们 一 次 一 个 符号 地 读 人 表达 式 。 如 果 符 号 是 操作 
He, 那么 我 们 就 建立 一 个 单 节 点 树 并 将 一 个 指向 它 的 指针 推 人 栈 中 。 如 果 符 号 是 操作 符 , I 
么 我 们 就 从 栈 中 弹出 指向 两 棵 树 Ti BT, 的 都 两 个 指针 (了 的 先 弹 出 ) 并 形成 一 棵 新 的 树 ， 
该 树 的 根 就 是 操作 符 , 它 的 左 、 右 儿子 分 别 指向 Ta 和 Ti。 然 后 将 指向 这 棵 新 树 的 指针 压 人 
栈 中 。 

来 看 一 个 例子 。 设 输入 为 : 

akt edet * * 


前 两 个 符号 是 操作 数 ， 央 此 我 们 创建 两 棵 单 节 点 树 并 将 指向 它们 的 指针 压 人 栈 中 。 


G， 为 了 方 使 起 网, 我 们 将 让 图 中 的 栈 从 左 到 右 增长 
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接着 ,“ + "被 读 人 , 因此 指向 这 两 棵 树 的 指针 被 弹出 , 一 棵 新 的 树 形成 ,而 指向 该 树 的 指针 
被 压 人 栈 中 。 

















T 


然后 , c、d 和 e 被 读 人 ,在 每 个 单 节点 树 创建 后 ,指向 对 应 的 树 的 指针 被 压 入 栈 中 。 


接 下 来 读 人 “+ "号 , 因此 两 棵 树 合并 。 
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最 后 , 读 人 最 后 一 个 符号 , 两 棵 树 合并 ,而 指向 最 后 的 树 的 指针 留 在 栈 中 。 
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4.3 ERB ADT 一 一 二 又 查找 树 


二 叉 树 的 一 个 重要 的 应 用 是 它们 在 查找 中 的 使 用 。 假 设 树 中 的 每 个 节点 被 指定 一 个 关键 
字 值 。 在 我 们 的 例子 中 , 虽然 任意 复杂 的 关键 字 都 是 允许 的 , 但 为 简单 起 见 ,假设 它们 都 是 
整数 。 我 们 还 将 假设 , 所 有 的 关键 字 是 互 异 的 ,以 后 再 处 理 有 重复 的 情况 。 

使 二 叉 树 成 为 二 叉 查找 树 的 性 质 是 , 对 于 树 中 的 每 个 节点 X, 它 的 左 子 树 中 所 有 关键 字 
值 小 于 X 的 关键 字 值 ,而 它 的 右 子 树 中 所 有 关键 字 值 大 于 X ORBE UL, TERR, 这 意味 着 ， 
该 树 所 有 的 元 素 可 以 用 某 种 统一 的 方式 排序 。 在 图 4-15 中 , 左边 的 树 是 二 叉 查找 树 ,但 右边 





的 树 则 不 是 。 右 边 的 树 在 其 关键 字 值 是 6 的 节点 (该 节点 正好 是 根 节点 ) 的 左 子 树 中 , 有 一 个 
节点 的 关键 字 值 是 7。 
5 
(22 ® 
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图 4-15 两 棵 二 叉 树 (只 有 左边 的 树 是 查找 树 ) 


现在 给 出 通常 对 二 又 查找 树 进行 的 操作 的 简要 描述 。 注 意 , 由 于 树 的 递归 定义 ， 通常 是 
递归 地 编写 这 些 操作 的 例 程 。 因 为 二 又 查找 树 的 平均 深度 是 O(log N), 所 以 我 们 一 般 不 必 
担心 栈 空间 被 用 尽 。 在 图 4-16 中 我 们 重复 类 型 定义 并 列 出 函数 的 一 些 性 质 。 由 于 所 有 的 元 
素 都 是 有 序 的 ， 因 此， 虽然 对 某 些 类 型 也 许 会 出 现 语法 错误 ， 但 我 们 还 是 要 假设 运算 符 “<”、 
“>" 和 “=" 可 以 用 于 这 些 元 素 。 

4.3.1 MakeEmpty 

这 个 操作 主要 用 于 初始 化 。 有 些 程序 设计 人 员 更 愿意 将 第 一 个 元 素 初始 化 为 单 节点 树 ， 
但 是 , 我 们 的 实现 方法 更 紧密 地 遵循 树 的 递归 定义 。 正 如 图 4-17 中 显示 的 , 它 是 一 个 简单 的 
例 程 。 
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#ifndef Tree H 


struct TreeNode; 
typedef struct TreeNode *Position; 
typedef struct TreeNode *SearchTree; 


SearchTree MakeEmpty( SearchTree T ); 

Position Find( ElementType X, SearchTree T ); 
Position FindMin( SearchTree T ); 

Position FindMax( SearchTree T ); 

SearchTree Insert( ElementType X, SearchTree T ); 
SearchTree Delete( ElementType X, SearchTree T ); 
ElenentType Retrieve( Position P ); 


wendif /* Tree H */ 


/* Place in the implementation file */ 
struct TreeNode 
d 
ElementType Element; 
SearchTree Left; 
SearchTree Right; 
k 











图 4-16 ”二 叉 查找 树 声明 









SearchTree 
MakeEmpty( SearchTree T ) 


ifCT t= NULL ) 

t 
MakeEmpty( T-»Left ); 
MakeEmpty( T-»Right ); 
freeC T): 


) 
return NULL; 
1 





图 4-17 建立 一 棵 空 树 的 例 程 


4.3.2 Find 

这 个 操作 一 般 需 要 返回 指向 树 T 中 具有 关键 字 X 的 节点 的 指针 ,如果 这 样 的 节点 不 存 
在 则 返回 NULL。 树 的 结构 使 得 这 种 操作 很 简单 。 如 果 T AE NULL, 那么 我 们 可 以 就 返回 
NULL, 否则, 如 果 存储 在 工 中 的 关键 字 是 X, 那么 我 们 可 以 返回 T. BW, 我 们 对 树 了 的 
左 子 树 或 右 子 树 进行 一 次 递归 调用 , 这 依赖 于 X 与 存储 在 了 中 的 关键 字 的 关系 。 图 4-18 " 
的 代码 就 是 对 这 种 策略 的 一 种 体现 。 

注意 测试 的 顺序 。 关 键 的 问题 是 首先 要 对 是 否 为 空 树 进行 测试 , 否则 就 可 能 在 NULL 
指针 上 忽 圈 子 。 其 余 的 测试 应 该 使 得 最 不 可 能 的 情况 安排 在 最 后 进行 。 还 要 注意 ， 这 里 的 两 
个 递归 调用 事实 上 都 是 尾 递 归并 且 可 以 用 一 次 赋值 和 一 个 goto 语句 很 容易 地 代替 。 尾 递归 
的 使 用 在 这 里 是 合理 的 , 因为 算法 表达 式 的 简明 性 是 以 速度 的 降低 为 代价 的 ， 而 这 里 所 使 用 
的 栈 空间 的 量 也 只 不 过 是 O(log N) 而 已 。 
4.3.3 FindMin 和 FindMax 

这 些 例 程 分 别 返 回 树 中 最 小 元 和 最 大 元 的 位 置 。 虽然 返回 这 些 元 素 的 准确 值 似乎 更 合 


38, 但 是 这 将 与 Find 操作 不 相 容 。 重 要 的 是 ， 看 起 来 类 似 的 操作 做 的 工作 也 是 类 似 的 。 为 执 











| Position 

| [Ws ElementType X, SearchTree T ) 
| if( T == NULL ) 

return NULL; | 





if( X < T->Element ) 
return Find( X, T->Left ); 
else 
ifC X > T->Element ) 
return Find( X, T->Right ); 


return T; 





) 
j 


| 
| 
| 守 
| 





图 4-18 二 叉 查 找 树 的 Find 操作 


行 FindMin, 从 根 开始 并 且 只 要 有 左 儿子 就 向 左 进行 。 终 止 点 是 最 小 的 元 素 。FindMax 例 程 
除 分 支 朝向 右 儿 子 外 其 余 过 程 相 同 。 

这 种 递归 是 如 此 容易 以 至 于 许多 程序 设计 员 不 大 其 烦 地 使 用 它 。 我 们 用 两 种 方法 编写 这 
两 个 例 程 , 用 递归 编写 FindMin, 而 用 非 递归 编写 FindMax( 见 图 4-19 和 图 4-20)。 


r 





Position 
FindMin( SearchTree T ) 


if( T == NULL ) 
return NULL; 
else 
if( T->Left == NULL ) 
return Ti 
else 
return FindMin( T->Left ); 
) 


LLL 


图 4-19 对 二 又 查找 树 的 FindMin 的 递归 实现 





Position 
FindMax( SearchTree T ) 


fC T t= NULL ) 
while( T->Right !« NULL ) 
T = T->Right; 


return 1; 
} 











图 4-20 对 二 叉 查 找 树 的 FindMax 的 非 递归 实现 


注意 我 们 是 如 何 小 心地 处 理 空 树 这 种 退化 情况 的 。 虽 然 小 心 总 是 重要 的 ,但 在 递归 程序 
中 它 尤 其 重要 。 此 外 , 还 要 注意 , 在 FindMax 中 对 了 的 改变 是 安全 的 ， 因为 我 们 只 用 拷贝 来 
进行 工作 。 不 管 怎么 说 , 还 是 应 该 随时 特别 小 心 , 因为 诸如 "T -> Right =T -> Right — 
> Right" 这 样 的 语句 将 会 产生 一 些 变化 。 
4.3.4 Insert 
进行 插入 操作 的 例 程 在 概念 上 是 简单 的 。 为 了 将 X 插入 到 树 全 中 ， 你 可 以 像 用 Find Af 
样 沿 着 树 查找 。 如 果 找 到 X, 则 什么 也 不 用 做 (或 做 一 些 “更 新 ")。 否 则 ， 将 X 插 和 人 到 遍历 的 
路 径 上 的 最 后 一 点 上 。 图 4-21 显示 实际 的 插入 情况 。 为 了 插入 5， 我 们 遍历 该 树 就 好 像 在 运 
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行 Find。 在 具有 关键 字 4 的 节点 处 , 我 们 需要 向 右 行进 , 但 右边 不 存在 子 树 , 因此 5 不 在 这 
BRE, 从 而 这 个 位 置 就 是 所 要 插入 的 位 置 。 








图 4-21 在 插入 5 以 前 和 以 后 的 二 叉 查 找 树 


重复 元 的 插入 可 以 通过 在 节点 记录 中 保留 一 个 附加 域 以 指示 发 生 的 频率 来 处 理 。 这 使 整 
个 的 树 增加 了 某 些 附加 空间 , 但 是 , 却 比 将 重复 信息 放 到 树 中 要 好 ( 它 将 使 树 的 深度 变 得 很 
K)o HA, 如 果 关键 字 只 是 一 个 更 大 结构 的 一 部 分 , 那么 这 种 方法 行 不 通 , 此 时 我 们 可 以 把 
具有 相同 关键 字 的 所 有 结构 保留 在 一 个 辅助 数据 结构 中 , 如 表 或 是 另 一 棵 查找 树 中 。 

图 4.22 显示 插入 例 程 的 程序 。 由 于 T 指向 该 树 的 根 , 而 根 又 在 第 一 次 插入 时 变化 , 因 
此 Insert 被 写成 一 个 返回 指向 新 树 根 的 指针 的 函数 。 第 8 行 和 第 10 行 递归 地 插入 X 到 适当 
的 子 树 中 。 





SearchTree 
Insert( ElementType X, SearchTree T ) 


{ 
es if( T == NULL ) 


{ 
/* Create and return a one-node tree */ 
DIU T = malloc( sizeof( struct TreeNode ) ); 
fe 3*/ fC T == NULL ) 
LA FatalError( "Out of space!!!" ); 
else 
{ 
J d T-»Element = X; 
/* 6 T->Left = T->Right = NULL; 
) 
} 
else 
ER if( X < T->Element ) 
/* 8*/ T-»Left = Insert( X, T-»Left ); 
else 
/*9*/ ifC X > T->Element ) 
/*10*/ T-»Right = Insert( X, T->Right ); 


/* Else X is in the tree already; we'll do nothing */ 


/*/ return T; /* Do not forget this line!! */ 











图 4.22 MATRA IERRA 


4.3.5 Delete 

正如 许多 数据 结构 一 样 ,最 困难 的 操作 是 删除 。 一 旦 发 现 要 被 删除 的 节点 ,我 们 就 需要 
考虑 几 种 可 能 的 情况 。 

如 果 节 点 是 一 片 树叶 , 那么 它 可 以 被 立即 删除 。 如 果 节 点 有 一 个 儿子 , 则 该 节点 可 以 在 
其 父 节点 调整 指针 绕 过 该 节点 后 被 删除 (为 了 清楚 起 见 ， 我 们 将 明确 地 画 出 指针 的 指向 ), 见 
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图 4-23。 注 意 , 所 删除 的 节点 现在 已 不 再 引用 , 而 该 节点 只 有 在 指向 它 的 指针 已 被 省 去 的 情 
况 下 才能 够 被 去 掉 - 





图 4-23 具有 一 个 儿子 的 节点 (4) 删 除 前 后 的 情况 


复杂 的 情况 是 处 理 具有 两 个 儿子 的 节点 。 一 般 的 删除 策略 是 用 其 右 子 树 的 最 小 的 数据 
(很 容易 找到 ) 代 替 该 节点 的 数据 并 递归 地 删除 那个 节点 (现在 它 是 空 的)。 因 为 右 子 树 中 的 最 
小 的 节点 不 可 能 有 左 儿 子 ,所 以 第 二 次 Delete( 删 除 ) 要 容易 。 图 4-24 显示 一 棵 初始 的 树 及 其 
中 一 个 节点 被 删除 后 的 结果 。 要 被 删除 的 节点 是 根 的 左 儿子 ; 其 关键 字 是 2。 它 被 右 子 树 中 
的 最 小 数据 (3) 所 代替 , 然后 关键 字 是 3 的 原 节 点 如 前 例 那 样 被 删除 。 





图 4-24 ”删除 具有 两 个 儿子 的 节点 (2) 前 后 的 情况 


图 4.25 中 的 程序 完成 删除 的 工作 , 但 它 的 效率 并 不 高 ,因为 它 沿 该 树 进行 两 趟 搜索 以 查 
找 和 删除 右 子 树 中 最 小 的 节点 。 写 一 个 特殊 的 DeleteMin 函数 可 以 容易 地 改变 效率 不 高 的 缺 
点 ,我们 将 它 略 去 只 是 为 了 简明 紧凑 。 

如 果 删 除 的 次 数 不 多 , 则 通常 使 用 的 策略 是 濑 懂 剂 除 (lazy deletion): 当 一 个 元 素 要 被 删 
除 时 ， 它 仍 留 在 树 中 ,而 是 只 做 了 个 被 删除 的 记号 。 这 种 做 法 特别 是 在 有 重复 关键 字 时 很 流 
行 , 因为 此 时 记录 出 现 频率 数 的 域 可 以 减 1。 如 果树 中 的 实际 节点 数 和 “被 删除 "的 节点 数 相 
同 , 那么 树 的 深度 预计 只 上 升 一 个 小 的 常数 ,( 为 什么 ?) 因此 ， 存在 一 个 与 懒惰 删除 相关 的 非 
常 小 的 时 间 损耗 。 再 有 ， 如 果 被 删除 的 关键 字 是 重新 插入 的 ， 那么 分 配 一 个 新 单元 的 开销 就 
避免 了 。 

4.8.6 平均 情形 分 析 

直观 上 , BR MakeEmpty 外 , 我 们 期 望 前 一 节 所 有 的 操作 都 花费 O(log N) 时 间 , 因为 我 

们 用 常数 时 间 在 树 中 降低 了 一 层 , 这 样 一 来 ， 对 树 的 操作 大 致 减少 一 半 左 右 。 因 此 , BR Ma- 
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SearchTree 
Delete( ElementType X, SearchTree T ) 
{ 

Position TmpCell; 


if T == NULL) 
Error( "Element not found" ); 

else 

if( X < T->Element ) /* Go left */ 
T-»Left = Delete( X, T-»Left ); 

else 

if( X > T->Element ) /* Go right */ 
T-»Right - Delete( X, T-»Left ); 

else /* Found element to be deleted */ 

ifC T->Left && T->Right ) /* Two children */ 


/* Replace with smallest in right subtree */ 
TmpCell = FindMin( T->Right ); 

T-»Element = TmpCell-»Element; 

T->Right = Delete( T->Element, T->Right ); 


) 
else /* One or zero children */ 


TmpCell = T; 
if( T-»Left == NULL ) /* Also handles 0 children */ 
T = T->Right; 
else if( T->Right == NULL ) 
T = T-oLeft; 
free( TmpCell ); 
) 


return T; 


) 











图 4-25 二 又 查找 树 的 删除 例 程 


keEmpty 外 ,所 有 的 操作 都 是 Oa), 其 中 d 是 包含 所 访问 的 关键 字 的 节点 的 深度 。 

我 们 在 本 节 要 证 明 , 假设 所 有 的 树 出 现 的 机 会 均等 ,， 则 树 的 所 有 节点 的 平均 深度 为 
O(log N)。 

一 棵 树 的 所 有 节点 的 深度 的 和 称 为 内 部 路 径 长 (inteal path length)。 我 们 现在 将 要 计算 二 
叉 查 找 树 平均 内 部 路 径 长 ,其 中 的 平均 是 对 向 二 又 查找 树 中 所 有 可 能 的 插入 序列 进行 的 。 

令 D(N) 是 具有 N 个 节点 的 某 棵 树 T 的 内 部 路 径 长 ，D(1) = 0。 一 棵 N 节点 树 是 由 
一 棵 ; 节点 左 子 树 和 一 棵 (N i 一 1) 节 点 右 子 树 以 及 深度 为 0 的 一 个 根 节点 组 成 , 其 中 0<i 
<N，D(i) 为 根 的 左 子 树 的 内 部 路 径 长 。 但 是 在 原 树 中 , 所 有 这 些 节点 都 要 加 深 一 度 。 同 样 
的 结论 对 于 右 子 树 也 是 成 立 的 。 因 此 我 们 得 到 递归 关系 : 

D(N) = Di) +DN-i-l+N=-1I 
如 果 所 有 子 树 的 大 小 都 等 可 能 地 出 现 , 这 对 于 二 又 查找 树 是 成 立 的 (因为 子 树 的 大 小 只 依赖 
于 第 一 个 插入 到 树 中 的 元 素 的 相对 的 秩 ), 但 对 于 二 叉 树 则 不 成 立 ,那么 D(i) 和 D(N = i - D) 


的 平均 值 都 是 (1/N) 377 DU) FE 
po) = 2[Spw]+n-1 


在 第 7 章 将 遇 到 并 求解 这 个 递归 关系 , 得 到 的 平均 值 为 D(N) = O(N log N)。 因此 任意 节 
点 的 期 望 深度 为 O(log N)。 作 为 一 个 例子 ,图 4-26 所 示 随 机 生成 的 500 个 节点 的 树 的 节点 


平均 深度 为 9.98。 








图 4-26 一 棵 随机 生成 的 二 叉 查 找 树 


但 是 , 上 来 就 断言 这 个 结果 意味 着 上 一 节 讨论 的 所 有 操作 的 平均 运行 时 间 是 O(log N) 
并 不 完全 正确 。 原 因 在 于 删除 操作 ,我 们 并 不 清楚 是 否 所 有 的 二 叉 查找 树 都 是 等 可 能 出 现 
的 。 特 别 是 ， 上面 描 述 的 删除 算法 有 助 于 使 得 左 子 树 比 右 子 树 深度 深 , 因为 我 们 总 是 用 右 子 
树 的 一 个 节点 来 代替 删除 的 节点 。 这 种 策略 的 准确 效果 仍然 是 未 知 的 ,但 它 似乎 只 是 理论 上 
的 谜团 。 已 经 证 明 , 如 果 我 们 交替 插入 和 删除 B( N2) 次 , 那么 树 的 期 望 深度 将 是 @(VN )。 
在 25 万 次 随机 Insert/Delete 后 , 图 4-26 中 右 沉 的 树 看 起 来 明显 地 不 平衡 (平均 深度 = 
12.51), 见 图 4-27。 





图 4-27 在 B(N?) 次 Insert/Delete 后 的 二 叉 查找 树 


在 删除 操作 中 , 我 们 可 以 通过 随机 选取 右 子 树 的 最 小 元 素 或 左 子 树 的 最 大 元 素来 代 蔡 被 删 
除 的 元 素 以 消除 这 种 不 平衡 问题 。 这 种 做 法 明显 地 消除 了 上 述 偏向 并 使 树 保持 平衡 , 但 是 , 没 
有 人 实际 上 证 明 过 这 一 点 。 这 种 现象 似乎 主要 是 理论 上 的 问题 , 因为 对 于 小 的 树 上 述 效果 根本 
显示 不 出 来 , 甚至 更 奇怪 , 如 果 使 用 o( N2) 对 Insert/Delete, 那么 树 似乎 可 以 得 到 平衡 ! 

上 面 的 讨论 主要 是 说 明 , 明确 “平均 "意味 着 什么 一 般 是 极其 困难 的 , 可 能 需要 一 些 假 
db. 这 些 假设 可 能 合理 , 也 可 能 不 合理 。 不 过 , 在 没有 删除 或 是 使 用 懒惰 删除 的 情况 下 , 可 
以 证 明 所 有 二 又 查找 树 都 是 等 可 能 出 现 的 ,而且 我 们 可 以 断言 : 上 述 那些 操作 的 平均 运行 时 
间 都 是 O(log N)。 除 像 上 面 讨论 的 一 些 个 别 情 形 外 ， 这 个 结果 与 实际 观察 到 的 情形 是 非常 
吻合 的 。 

如 果 向 一 棵 预先 排序 的 树 输入 数据 , 那么 一 连 串 Insert 操作 将 花费 二 次 时 间 ， 而 链表 实 
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现 的 代价 会 非常 巨大 , 因为 此 时 的 树 将 只 由 那些 没有 左 儿 子 的 节点 组 成 。 一 种 解决 办 法 就 是 
要 有 一 个 称 为 平衡 (balance) 的 附加 的 结构 条 件 : 任何 节点 的 深度 均 不 得 过 深 。 

有 许多 一 般 的 算法 实现 平衡 树 。 但 是 , 大 部 分 算法 都 要 比 标准 的 二 又 查找 树 复杂 得 多 ， 
而 且 更 新 要 平均 花费 更 长 的 时 间 。 不 过 , 它们 确实 防止 了 处 理 起 来 非常 麻烦 的 一 些 简单 情 
É. FE, 我 们 将 介绍 最 老 的 一 种 平衡 查找 树 , BD AVL 树 。 

另外 , 较 新 的 方法 是 放弃 平衡 条 件 , 允许 树 有 任意 的 深度 , 但 是 在 每 次 操作 之 后 要 使 用 
一 个 调整 规则 进行 调整 , 使 得 后 面 的 操作 效率 更 高 。 这 种 类 型 的 数据 结构 一 般 属于 自 调整 
(self-adjusting) 类 结构 。 在 二 又 查找 树 的 情况 下 , 对 于 任意 单个 运算 我 们 不 再 保证 O(log N) 
的 时 间 界 , 但 是 可 以 证 明 任意 连续 M 次 操作 在 最 坏 的 情形 下 花费 时 间 为 O( M log N)。 一 般 
这 足以 防止 令 人 棘手 的 最 坏 情形 。 我 们 将 要 讨论 的 这 种 数据 结构 叫做 伸展 树 (splay tree); 它 
的 分 析 相当 复杂 , 我 们 将 在 第 11 章 讨论 。 


4.4 AVL 树 


AVL(Adelson-Velskii 和 Landis) 树 是 带 有 平衡 条 件 的 二 又 查找 树 。 这 个 平衡 条 件 必须 要 
容易 保持 ,而 且 它 须 保证 树 的 深度 是 O(log N) 。 最 简单 的 想法 是 要 求 左右 子 树 具有 相同 的 
高 度 。 如 图 4.28 所 示 , 这 种 想法 并 不 强求 树 的 深度 要 浅 。 

另 一 种 平衡 条 件 是 要 求 每 个 节点 都 必须 要 有 相同 高 
度 的 左 子 树 和 右 子 树 。 如 果 空 子 树 的 高 度 定义 为 - 1( 通 
常 就 是 这 么 定义 ), 那么 只 有 具有 24 - 1 个 节点 的 理想 平 
dil perfectly balanced tree) 满 足 这 个 条 件 。 因 此 , 虽然 这 
种 平衡 条 件 保证 了 树 的 深度 小 , 但 是 它 太 严 格 ， 难 以 使 
用 , 需要 放宽 条 件 。 

一 棵 AVL 树 是 其 每 个 节点 的 左 子 树 和 右 子 树 的 高 度 。 图 428 REEN, TOR 
最 多 差 1 的 二 叉 查找 树 。( 空 树 的 高 度 定义 为 - 1。) 在 图 ERKATAATEN 
4.29 中 , 左边 的 树 是 AVL 树 , 但 是 右边 的 树 不 是 。 每 一 个 节点 (在 其 节点 结构 中 ) 保 留 高 度 


TO) 信息 。 可 以 证 明 , 大致 上 讲 , 一 个 AVL 树 的 高 度 最 多 为 1.44log(N +2) - 1.328, 但 是 实际 


上 的 高 度 只 比 logN 稍微 多 一 些 。 作 为 例子 , 图 4-30 显示 一 棵 具有 最 少 节点 (143) 高 度 为 9 
的 AVL 树 。 这 棵 树 的 左 子 树 是 高 度 为 7 且 节 点 数 最 少 的 AVL 树 , 右 子 树 是 高 度 为 8 的 节点 
数 最 少 的 AVL 树 。 它 告诉 我 们 , ERREX h 的 AVL 树 中 ， 最少 节 点 数 S(h) 由 S(h)= 
S(h-1)+S(h-2) +1 Ho MF A=0,S(A)=1; h 71, S(h)=20 IRI S(h) SERR 
奥数 密切 相关 ， 由 此 推出 上 面 提 到 的 关于 AVL 树 的 高 度 的 界 。 

因此 ,除去 可 能 的 插入 外 (我 们 将 假设 懒惰 删除 ), 所 有 的 树 操作 都 可 以 以 时 间 O(log N) 执 
行 。 当 进行 插入 操作 时 ,我 们 需要 更 新 通 向 根 节点 路 径 上 那些 节点 的 所 有 平衡 信息 ,而 插入 
操作 隐 含 着 困难 的 原因 在 于 ; 插入 一 个 节点 可 能 破坏 AVL 树 的 特性 。( 例 如 , 将 6 插入 到 图 
4.29 中 的 AVL 树 中 将 会 破坏 关键 字 为 8 的 节点 平衡 条 件 。) 如 果 发 生 这 种 情况 , 那么 就 要 把 
性 质 恢复 以 后 才 认 为 这 一 步 插入 完成 。 事 实 上 , 这 总 可 以 通过 对 树 进行 简单 的 修正 来 做 到 ， 
我 们 称 其 为 旋转 (rotation)。 

在 插入 以 后 , 只 有 那些 从 插入 点 到 根 节点 的 路 径 上 的 节点 的 平衡 可 能 被 改变 ， 因为 只 有 
这 些 节点 的 子 树 可 能 发 生变 化 。 当 我 们 沿 着 这 条 路 径 上 行 到 根 并 更 新 平衡 信息 时 ， 我 们 可 以 











图 4-29 ”两 棵 二 又 查找 树 , 只 有 左边 的 树 是 AVL 树 





图 4-30 高 度 为 9 的 最 小 的 AVL 树 


找到 一 个 节点 , 它 的 新 平衡 破坏 了 AVL 条 件 。 我 们 将 指出 如 何在 第 一 个 这 样 的 节点 ( 即 最 深 
的 节点 ) 重 新 平衡 这 棵 树 ， 并 证 明 , 这 一 重新 平衡 保证 整个 树 满足 AVL 特性 。 

让 我 们 把 必须 重新 平衡 的 节点 叫做 <。 由 于 任意 节点 最 多 有 两 个 儿子 ,因此 高 度 不 平衡 
时 ,a 点 的 两 棵 子 树 的 高 度 差 2。 容 易 看 出 ， 这 种 不 平衡 可 能 出 现在 下 面 四 种 情况 中 

1. 对 a 的 左 儿子 的 左 子 树 进行 一 次 插入 。 

2. 对 a 的 左 儿子 的 右 子 树 进行 一 次 插 人 。 

3. 对 a 的 右 儿 子 的 左 子 树 进行 一 次 插 人 。 

4. 对 a 的 右 儿 子 的 右 子 树 进行 一 次 插入 。 

情形 1 和 4 是 关于 a 点 的 镜像 对 称 , 而 2 和 3 是 关于 o 点 的 镜像 对 称 。 因 此 , 理论 上 只 
有 了 两 种 情况 ， 当 然 从 编程 的 角度 来 看 还 是 四 种 情形 。 

第 一 种 情况 是 插入 发 生 在 “外 边 "的 情况 ( 即 左 一 左 的 情况 或 右 — 右 的 情况 )， 该 情况 通过 
对 树 的 一 次 单 旋转 (single rotation) 而 完成 调整 。 第 二 种 情况 是 插入 发 生 在 “内 部 "的 情形 (好 
左 - 右 的 情况 或 右 - 左 的 情况 ), 该 情况 通过 稍微 复杂 些 的 双 旋转 (double rotation) 来 处 理 。 我 
们 将 会 看 到 , 这 些 都 是 对 树 的 基本 操作 , 它们 多 次 用 于 平衡 树 的 一 些 算法 中 。 本 节 其 余部 分 
将 描述 这 些 旋转 , 证 明 它们 足以 保持 树 的 平衡 , 并 顺便 给 出 AVL 树 的 一 种 非 正式 实现 方法 
第 12 章 描述 其 他 的 平衡 树 方法 ,这些 方 法 着 眼 于 AVL 树 的 更 仔细 的 实现 。 
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4.4.1 单 旋转 

图 4-31 显示 单 旋转 如 何 调整 情形 1。 旋 转 前 的 图 在 左边 , 而 旋转 后 的 图 在 右边 。 让 我 们 
来 分 析 具 体 的 做 法 。 节 点 & 不 满足 AVL 平衡 特性 ,因为 它 的 左 子 树 比 右 子 树 深 2 层 ( 图 中 
间 的 几 条 虚线 标示 树 的 各 层 )。 该 图 所 描述 的 情况 只 是 情形 ! 的 一 种 可 能 情况 , 在 插入 之 前 
k: 满足 AVL 特性 , 但 在 插入 之 后 这 种 特性 被 破坏 了 。 子 树 X 已 经 长 出 一 层 , 这 使 得 它 比 子 
树 Z 深 出 2 层 。Y 不 可 能 与 新 X 在 同一 水 平 上 , 因为 那样 k 在 插入 以 前 就 已 经 失去 平衡 
T: Y 也 不 可 能 与 Z 在 同一 层 上 , 因为 那样 ki 就 会 是 在 通 向 根 的 路 径 上 破坏 AVL 平衡 条 件 
的 第 一 个 节点 。 








图 4-31 调整 情形 1 的 单 旋 转 


为 使 树 恢复 平衡 , 我 们 把 X 上 移 一 层 , 并 把 Z 下 移 一 层 。 注 意 ,此 时 实际 上 超出 了 
AVL 特性 的 要 求 。 为 此 , 我 们 重新 安排 节点 以 形成 一 棵 等 价 的 树 , 如 图 4-31 的 第 二 部 分 所 
示 。 抽 象 地 形容 就 是 : 把 树 形象 地 看 成 是 柔软 灵活 的 , 抓 住 节点 1, 闭 上 你 的 双眼 , 使劲 揪 
HE, 在 重力 作用 下 , ki 就 变 成 了 新 的 根 。 二 叉 查 找 树 的 性 质 告诉 我 们 , 在 原 树 中 k> ky, 
于 是 在 新 树 中 ks ERT ki 的 右 儿 子 ，X MZ 仍然 分 别 是 的 左 儿子 和 k 的 右 儿子 。 子 树 
Y 包含 原 树 中 介 于 kl 和 ky 之 间 的 那些 节点 ,可 以 将 它 放 在 新 树 中 的 左 儿 子 的 位 置 上 , 这 
FE, 所 有 对 顺序 的 要 求 都 得 到 满足 。 

这 样 的 操作 只 需要 一 部 分 指针 改变 ,结果 我 们 得 到 另外 一 棵 二 叉 查找 树 ， 它 是 一 棵 
AVL Bl, 因为 X 向 上 移动 了 一 层 ，Y 停 在 原来 的 水 平 上 ,而 Z FEE. kM LS DU 
E AVL 要 求 ,而 且 它们 的 子 树 都 恰好 处 在 同一 高 度 上 。 不 仅 如 此 ,整个 树 的 新 高 度 恰恰 
与 插入 前 原 树 的 高 度 相 同 ， 而 插入 操作 却 使 得 子 树 X 长 高 了 。 因 此 , 通 向 根 节点 的 路 径 的 
高 度 不 需要 进一步 的 修正 ， 因 而 也 不 需要 进一步 的 旋转 。 图 4-32 显示 在 将 6 插入 左边 原始 
的 AVL 树 后 节点 8 便 不 再 平衡 。 于 是 , 我 们 在 7 和 8 之 间 做 一 次 单 旋转 , 结果 得 到 右边 
的 树 。 





图 4.32 插入 6 破坏 了 AVL 特性, 而 后 经 过 单 旋转 又 将 特性 焦 复 
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图 +-33 单 旋转 修复 情形 4 


正如 我 们 较 早 提 到 的 , 情形 4 代表 一 种 对 称 的 情形 。 图 4-33 指出 单 旋转 如 何 使 用 。 让 我 
们 演示 一 个 稍微 长 一 些 的 例子 。 假 设 从 初始 的 空 AVL 社 开始 插入 关键 字 3、2 和 1, 然后 依 
序 插入 4 到 7。 在 插入 关键 字 1 时 第 一 个 问题 出 现 了 , AVL 特性 在 根 处 被 破坏 。 我 们 在 根 与 
其 左 儿子 之 间 施行 单 旋转 修正 这 个 问题 。 下 面 是 旋转 之 前 和 之 后 的 两 棵 树 : 


r 旋转 之 后 


图 中 虚线 连接 两 个 节点 ,它们 是 旋转 的 主体 下 面 我 们 插入 关键 字 为 4 的 节点 ， 这 没有 问 
题 , 但 插入 5 破坏 了 在 节点 3 处 的 AVL 特性 ,而 通过 单 旋 转 又 将 其 修正 。 除 旋转 引起 的 局 
部 变化 外 , 编程 人 员 必 须 记 住 : 树 的 其 余部 分 必须 知晓 该 变化 。 如 本 例 中 节点 2 的 右 儿子 必 
须 重新 设置 以 指向 4 来 代替 3。 这 一 点 很 容易 忘记 ,从 而 导致 树 被 破坏 (4 就 会 是 不 可 访 


间 的 )。 
2 D 
旋转 之 前 i 旋转 之 后 


下 而 我 们 插入 6。 这 在 根 节点 产生 一 个 平衡 问题 , 因为 它 的 左 子 树 高 度 是 0 而 右 子 树 高 
度 为 2。 因 此 我 们 在 根 处 在 2 和 4 之 间 实 施 一 次 单 旋转 。 
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旋转 的 结果 使 得 2 是 4 的 一 个 儿子 而 4 原来 的 左 子 树 变 成 节点 2 的 新 的 右 子 树 。 在 该 子 树 上 
的 仁 -- 个 关键 字 均 在 2 和 4 之 间 , 因此 这 个 变换 是 成 立 的 。 我 们 插 人 的 下 一 个 关键 字 是 7， 





& Hae 
它 导致 另外 的 旋转 : 
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4.4. Xu 
上 面 描述 的 算法 有 一 个 问题 : 如 图 4-34 所 示 , 对 于 情形 2 和 3 上 面 的 做 法 无 效 。 问 题 在 
于 子 树 Y 太 深 , 单 旋转 没有 减低 它 的 深度 。 解 决 这 个 问题 的 双 旋 转 在 图 4-35 中 表 出 。 


图 4-34 单 旋转 不 能 修复 情形 2 
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图 4-35 左 - 右 双 旋转 修复 情形 2 





在 图 4-34 中 的 子 树 Y 已 经 有 一 项 插入 其 中 , 这 个 事实 保证 它 是 非 空 的 。 因 此 , 我 们 可 
以 假设 它 有 一 个 根 和 两 棵 子 树 。 于 是 ,我 们 可 以 把 整 棵 树 看 成 是 四 棵 子 树 由 3 个 节点 连接 。 
如 图 所 示 , 恰好 树 B RRC 中 有 一 棵 比 D 深 两 层 (除非 它们 都 是 空 的 ), 但 是 我 们 不 能 肯定 


是 哪 棵 。 事 实 上 这 并 不 要 紧 , 在 图 4.35 中 B 和 C 都 被 画 成 比 D 低 1 二 层 

为 了 重新 平衡 , 我 们 看 到 , 不 能 再 让 ks 作为 根 了 , 而 图 4-34 所 示 的 在 ks 和 之 间 的 施 
转 又 解决 不 了 问题 , 惟一 的 选择 就 是 把 ks 用 作 新 的 根 。 这 迫使 ki 是 的 左 儿 子 ，ks BE 
的 右 儿子 ， 从 而 完全 确定 了 这 四 棵 树 的 最 终 位 置 。 容 易 看 出 ， 最 后 得 到 的 树 满足 AVL 树 的 
特性 ,与 单 旋转 的 情形 一 样 , 我 们 也 把 树 的 高 度 恢复 到 插入 以 前 的 水 平 ， 这 就 保证 所 有 的 重 
新 平衡 和 高 度 更 新 是 完善 的 。 图 4-36 指出 , 对 称 情形 3 也 可 以 通过 双 旋 转 得 以 修正 。 在 这 两 
种 情形 下 ,其 效果 与 先 在 a 的 儿子 和 孙子 之 间 族 转 而 后 再 在 和 它 的 新 儿子 之 间 旋 转 的 效果 
是 相同 的 。 

我 们 继续 在 前 面 例子 的 基础 上 以 倒序 插入 关键 字 10 到 16, 接着 插入 8, 然后 再 插入 9。 
插入 16 容易 ,因为 它 并 不 破坏 平衡 特性 , 但 是 插入 15 就 会 引起 在 节点 7 处 的 高 度 不 平衡 。 
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98436. 右 - 左 双 旋转 修复 情形 3 
这 属于 情形 3, 需要 通过 一 次 右 - 左 双 旋转 来 解决 。 在 我 们 的 例子 中 , 这 个 右 - 左 双 旋转 将 涉及 
7, 16 和 15。 此 时 ,1 是 具有 关键 字 7 的 节点 , k3 是 具有 关键 字 16 的 节点 , 而 k 是 具有 关 
键 字 15 的 节点 。 子 树 A、B、C 和 都 是 空 树 。 





FERIA 14, 它 也 需要 一 个 双 旋 转 。 此 时 修复 该 树 的 双 旋 转 还 是 右 - 左 双 旋 转 , E 
将 涉及 6、15 和 7。 在 这 种 情况 下 ,Ai 是 具有 关键 字 6 的 节点 , ks 是 具有 关键 字 7 的 节点 ， 
而 k 是 具有 关键 字 15 的 节点 。 子 树 A 的 根 在 关键 字 为 S 的 节点 上 , 子 树 B 是 空子 树 , CE 
关键 字 7 的 节点 原先 的 左 儿 子 , 子 树 C 置 根 于 关键 字 14 的 节点 上 , AUG. TR D 的 根 在 关 
键 字 为 16 的 节点 上 。 











旋转 之 后 


如 果 现在 插入 13, 那么 在 根 处 就 会 产生 一 个 不 平衡 。 由 于 13 不 在 4 和 7 之 间 ， 因 此 我 
们 知道 一 次 单 旋转 就 能 完成 修正 的 工作 。 
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旋转 之 前 人) 旋转 之 后 {117] 
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12 的 插入 也 需要 一 个 单 旋转 : 





为 了 插入 11, 还 需要 进行 一 个 单 旋转 , 对 于 其 后 的 10 的 插入 也 需要 这 样 的 旋转 。 我 们 
插入 8 不 进行 旋转 , 这 样 就 建立 了 一 棵 近乎 理想 的 平衡 树 。 





最 后 , 我 们 插入 9 以 演示 双 旋转 的 对 称 情形 。 注 意 , 9 引起 含有 关键 字 10 的 节点 产生 不 
平衡 。 由 于 9 在 10 和 8 之 间 (8 是 通 向 9 的 路 径 上 的 节点 10 的 儿子 )， 因此 需要 进行 一 个 双 
[us] 旋转 , 我 们 得 到 下 面 的 树 : 








现在 让 我 们 对 上 面 的 讨论 作 个 总 结 。 除 几 种 情形 外 ,编程 的 细节 是 相当 简单 的 。 为 将 关 
/ 键 字 是 X 的 一 个 新 节点 插入 到 一 棵 AVL BET 中 去 , 我 们 递归 地 将 X MAIT 的 相应 的 子 
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树 ( 称 为 TiR) 中 。 如 果 Trg 的 高 度 不 变 , 那么 插入 完成 。 否 则 , 如 果 在 T 中 出 现 高 度 不 平 
衡 , 那么 我 们 根据 X 以 及 T 和 TirR 中 的 关键 字 做 适当 的 单 旋转 或 双 旋 转 , 更 新 这 些 高 度 (并 
解决 好 与 树 的 其 余部 分 的 连接 ), 从 而 完成 插入 。 由 于 一 次 旋转 总 能 足以 解决 问题 , 因此 仔 
细 地 编写 非 递 归 的 程序 一 般 说 来 要 比 编写 递归 程序 快 很 多 。 然而 ,要 想 把 非 递 归程 序 编写 正 
确 是 相当 困难 的 , 因此 许多 编程 人 员 还 是 用 递归 的 方法 实现 AVL 树 。 

另 一 种 效率 问题 涉及 到 高 度 信息 的 存储 。 由 于 真正 需要 的 实际 上 就 是 子 树 高 度 的 差 , 应 
该 保证 它 很 小 。 如 果 我 们 真 的 尝试 这 种 方法 , 则 可 用 两 个 二 进 制 位 (代表 + 1, 0，- 1) 表 示 这 
个 差 。 这 么 做 将 避免 平衡 因子 的 重复 计算 , 但 是 却 丧失 某 些 简明 性 。 最 后 的 程序 多 多 少 少 要 
比 在 每 一 个 节点 存储 高 度 时 复杂 。 如 果 编 写 递归 程序 , 那么 速度 铠 怕 不 是 主要 考虑 的 问题 。 
此 时 , 通过 存储 平衡 因子 所 得 到 的 些微 的 速度 优势 很 难 抵消 清晰 度 和 相对 简明 性 的 损失 。 不 
仅 如 此 , 由 于 大 部 分 机 器 存储 的 最 小 单位 是 8 个 二 进 制 位 , 因此 所 用 的 空间 最 不 可 能 有 任何 
差别 。8 位 使 我 们 存储 高 达 255 的 绝对 高 度 。 既 然 树 是 平衡 的 ， 当 然 也 就 不 可 想像 这 会 少 到 
不 够 用 ( 见 练习 )。 

有 了 上 面 的 讨论 , 现在 准备 编写 AVL 树 的 一 些 例 程 。 不 过 , 我 们 只 想 做 一 部 分 工作 , 其 
余 的 留 作 练习 。 首 先 , 我 们 需要 些 声明 。 这 些 声明 在 图 4-37 中 给 出 。 我 们 还 需要 一 个 快速 
的 函数 来 返回 节点 的 高 度 。 这 个 函数 必须 处 理 NULL 指针 的 恼人 的 情形 .该 程序 在 图 4-38 [19] 
中 给 出 。 基 本 的 插入 例 程 写 起 来 很 容易 , 因为 它 主要 由 一 些 函数 调用 组 成 ( 见 图 4-39)。 








wifndef _Av1Tree_H 


| struct AviNode; 
typedef struct AviNode “Position; 
typedef struct AviNode *AvlTree; 


| AviTree MakeEmpty( AviTree T ); 

Position Find( ElementType X, AvlTree T ); 
Position FindMin( AvlTree T ); 

| Position FindMax( AviTree T ); 

AviTree Insert( ElementType X, AviTree T ); 
| AviTree Delete( Elementrype X, AviTree T; 
ElementType Retrieve( Position P ); 


#endif /* AviTree_H */ 


/* Place in the implementation file */ 
| struct AviNode 

{ 
ElementType Element; 
Avitree Left; | 
AvlTree Right; 
int Height; 











图 4-37 AVL 树 的 节点 声明 


对 于 图 4-40 中 的 那些 树 ，SingleRorareWithLeft 把 左边 的 酝 变 成 右边 的 树 , 并 返回 指向 
新 根 的 指针 。SingleRotateWithRight 做 的 工作 恰好 相反 。 程 序 在 图 4-41 中 表 出 。 

我 们 要 写 的 最 后 一 个 函数 完成 图 4-42 所 描述 的 双 施 转 , 其 程序 由 图 4-43 li 

对 AVL 树 的 删除 多 少 要 比 插入 复杂 。 如 果 删 除 操作 相对 较 少 , Za BTE RA T 
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好 的 策略 。 


static int 
Height( Position P ) 


if( P == NULL ) 
return -1; 

else 
return P-»Height; 








图 4-38 计算 AVL 节点 的 高 度 的 函数 








AvITree 
Insert( ElementType X, AvlTree T ) 


Af T == NULL ) 
{ 
/* Create and return a one-node tree */ 
T = malloc( sizeof( struct AvlNode ) ); 
ifCT == NULL ) 
FatalError( “Out of space!!!" ); 
else 


T->Element = X; T->Height = 0; 
T->Left = T->Right = NULL; 
} 
) 


else 
fC X < T->Element ) 


T-»Left = Insert( X, T-»Left ); 
if( Height T-»Left ) - Height( T-»Right ) == 2 ) 
if( X < T->Left->Element ) 
T = SingleRotateWithLeft( T ); 
else 
T = DoubleRotateWithLeft( T ); 
} 
else 
if( X > T->Element ) 


T->Right = Insert( X, T->Right ); 
if( Height( T->Right ) - Height( T->Left ) == 2) 
if( X > T->Right->Element ) 
T = SingleRotatewithRight( T 2; 
else 
T = DoubleRotateWithRight( T ); 


) 
/* Else X is in the tree already; we'll do nothing */ 


T-»Height = Max( Height( T-»Lefr ), Height( T-»Right ) ) + 1; 
return T; 








图 4-39 向 AVL 树 插入 节点 的 函数 
© €) 
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图 4-40 单 旋转 








/* This function can be called only if K2 has a left child */ 
/* Perform a rotate between a node (K2) and its left child */ 
/* Update heights, then return new root */ 
static Position 
SingleRotateWithLeft( Position K2 ) 
3 

Position Kl; 

Kl = K2->Left; 

K2->Left = K1->Right; 

K1->Right = K2; 

K2-»Height = Max( Height( K2-»Left ), 

| Height( K2->Right ) ) + 
Kl-»Height = Max( Height( Kl->Left ), K2->Height ) + 


return Kl; /* New root */ 











图 4-41 执行 单 旋转 的 例 程 








| /* This function can be called only if K3 has a Teft */ 
/* child and K3's left child has a right child */ 
/* Do the left-right double rotation */ 

| /* Update heights, then return new root */ 


static Position 
DoubleRotateWithLeft( Position K3 ) 


/* Rotate between K1 and K2 */ 
K3-»Left = SingleRotateWithRight( K3-»Left ); 


/* Rotate between K3 and K2 */ 
return SingleRotatewithLeft( K3 ); 
) 





图 4-43 执行 双 旋转 的 例 程 


4.5 伸展 树 


现在 我 们 描述 一 种 相对 简单 的 数据 结构 ,叫做 伸展 树 (splay tree), 它 保证 从 空 树 开始 任 
意 连 续 M 次 对 树 的 操作 最 多 花费 O(M log N) 时 间 。 虽 然 这 种 保证 并 不 排除 任意 一 次 操作 
花费 O(N) 时 间 的 可 能 , 而且 这 样 的 界 也 不 如 每 次 操作 最 坏 情形 的 界 O(log N ) 那 么 短 , 但 
是 实际 效果 是 一 样 的 : 不 存在 坏 的 输入 序列 一 般 说 来 ， 当 M 次 操作 的 序列 总 的 最 坏 情形 
运行 时 间 为 OCMF(N)) 时 , 我 们 就 说 它 的 控 还 (amortized) 运 行 时间 为 O(F(N))。 因 此 , 一 
棵 伸展 树 每 次 操作 的 挫 还 代价 是 O(log N). 经 过 一 系列 的 操作 之 后 , 有 的 可 能 花费 时 间 多 
一 些 , 有 的 可 能 要 少 一 些 。 
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伸展 树 是 基于 这 样 的 事实 : 对 于 二 叉 查 找 树 来 说 , 每 次 操作 最 坏 情形 时 间 O(N) 并 不 
坏 , 只 要 它 相 对 不 常 发 生 就 行 。 任 何 一 次 访问 ,即使 花费 O(N), 仍然 可 能 非常 快 。 二 叉 查 
找 树 的 问题 在 于 ,虽然 一 系列 访问 整体 都 有 可 能 发 生 不 良 操作 , 但 是 很 罕见 。 此 时 ， 累 积 的 
运行 时 间 很 重要 。 具 有 最 坏 情 形 运行 时 间 O(N ) 但 保证 对 任意 M 次 连续 操作 最 多 花费 
O(M log N) 运 行 时 间 的 查找 树 数据 结构 确实 可 以 满意 了 ,因为 不 存在 坏 的 操作 序列 。 

如 果 任 意 特定 操作 可 以 有 最 坏 时 间 界 O CN) ， 而 我 们 仍然 要 求 一 个 O(log N) 的 挫 还 时 
A, 那么 很 清楚 ,只 要 一 个 节点 被 访问 , 它 就 必须 被 移动 。 否 则 , 一 旦 我 们 发 现 一 个 深层 
的 节点 , 我 们 就 有 可 能 不 断 对 它 进行 Find 操作 。 如 果 这 个 节点 不 改变 位 置 , 而 每 次 访问 又 花 
费 O(N), 那么 M 次 访问 将 花费 O(M'N) 的 时 间 。 

伸展 树 的 基本 想法 是 ， 当 一 个 节点 被 访问 后 ,， 它 就 要 经 过 一 系列 AVL 树 的 旋转 被 放 到 
JR E. HE, 如 果 一 个 节点 很 深 , 那么 在 其 路 径 上 就 存在 许多 的 节点 也 相对 较 深 , 通过 重新 
构造 可 以 使 对 所 有 这 些 节 点 的 进一步 访问 所 花费 的 时 间 变 少 。 因 此 ,如 果 节点 过 深 , 那么 我 
们 还 要 求 重新 构造 应 具有 平衡 这 棵 树 (到 某 种 程度 ) 的 作用 。 除 在 理论 上 给 出 好 的 时 间 界 外 ， 
这 种 方法 还 可 能 有 实际 的 效用 , 因为 在 许多 应 用 中 当 一 个 节点 被 访问 时 ， 它 就 很 可 能 不 久 再 
被 访问 到 。 研 究 表明 ,这 种 情况 的 发 生 比 人 们 预料 的 要 频繁 得 多 。 另 外 ,伸展 树 还 不 要 求 保 
留 高 度 或 平衡 信息 ， 因 此 它 在 某 种 程度 上 节省 空间 并 简化 代码 (特别 是 当 实现 例 程 经 过 审慎 
考虑 而 被 写 出 的 时 候 )。 

4.5.1 一 个 简单 的 想法 

实施 上 面 描述 的 重新 构造 的 一 种 方法 是 执行 单 旋转 , 从 下 向 上 进行 。 这 意味 着 我 们 将 在 
访问 路 径 上 的 每 一 个 节点 和 它们 的 父 节点 实施 旋转 。 作 为 例子 , 考虑 在 下 面 的 树 中 对 Al 进 
行 一 次 访问 (一 次 Find) 之 后 所 发 生 的 情况 。 





虚线 是 访问 的 路 径 。 首 先 , 我 们 在 k 和 它 的 父 节点 之 间 实 施 一 次 单 旋转 ,得 到 下 面 的 树 


ee" 








at 91 





然后 , 我 们 在 ki 和 As 之 问 旋转 ,得 到 下 一 棵 树 - 








这 此 旋转 的 效果 是 将 kı 一 直 推 向 树 根 , 使 得 对 ki 的 进一步 访问 很 容易 (暂时 的 )。 不 足 
的 是 它 把 另外 一 个 节点 (43) 几 乎 推 向 和 ki 以 前 同样 的 深度 。 而 对 那个 节点 的 访问 又 将 把 另 
外 的 节点 向 深 处 推进 , 如 此 等 等 。 虽 然 这 个 策略 使 得 对 A 的 访问 花费 时 间 减 少 , 但 是 它 并 没 
有 明显 地 改变 (原先 ) 访 问 路 径 上 其 他 节点 的 状况 。 事 实 上 可 以 证 明 , 对 于 这 种 策略 将 会 存在 
一 系列 M 个 操作 共和 需要 Q (M+ N) 的 时 间 , 因此 这 个 想法 还 不 够 好 。 证 明 这 件 事 最 简单 的 方 
法 是 考虑 向 初始 的 空 树 插入 关 键 字 1, 2, 3... N 所 形成 的 树 (请 将 这 个 例子 算出 )。 由 此 
得 到 一 棵 树 , 这 棵 树 只 由 一 些 左 儿子 构成 。 由 于 建立 这 棵 树 总 共 花 费时 间 为 O(N)， 因此 这 
未 必 就 有 多 环 。 问 题 在 于 访问 关键 字 为 1 的 节点 花费 N - 1 个 单元 的 时 间 。 在 这 些 旋转 完 
成 以 后 ,对 关键 字 为 2 的 节点 的 一 次 访问 花费 N - 2 个 单元 的 时 间 。 依 序 访问 所 有 关键 字 
的 总 时 DES) 1i = 0(N2)。 在 它们 都 被 访问 以 后 , 该 树 转 变 回 原始 状态 , 旦 我 们 可 能 重 
复 这 个 访问 顺序 。 
4.5.2 展开 

展开 (Splaying) 的 思路 类 似 于 前 面 介绍 的 旋转 的 想法 ,不 过 在 施 转 如 何 实施 上 我 们 稍微 
有 些 选择 的 余地 。 我 们 仍然 从 底部 向 上 沿 着 访问 路 径 旋转 。 令 X 是 在 访问 路 径 上 的 一 个 ( 非 
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根 ) 节 点 , 我 们 将 在 这 个 路 径 上 实施 旋转 操作 。 如 果 X 的 父 节点 是 树 根 , 那么 我 们 只 要 旋转 
X 和 树 根 。 这 就 是 沿 着 访问 路 径 上 的 最 后 的 旋转 。 否 则 ，X 就 有 父亲 (P) 和 祖父 (G), 存在 
两 种 情况 以 及 对 称 的 情形 要 考虑 。 第 一 种 情况 是 之 字形 (zig-zag) 情 形 ( 见 图 4-44)。 这 里 ，X 
是 右 儿 子 的 形式 , P 是 左 儿子 的 形式 (反之 亦 然 )。 如 果 是 这 种 情况 , 那么 我 们 就 执行 一 次 像 
AVL 那样 的 双 旋转 。 否 则 ,出现 另 一 种 一 字形 (zig-zig) 情 形 : X 和 PP 或 者 都 是 左 儿 子 ,或 者 
都 是 右 儿子 。 在 这 种 情况 下 , 我 们 把 图 4-45 左边 的 树 变换 成 右边 的 树 。 


(X) 
E v 


图 4-44 之 字形 (Zig-zag) 情 形 
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(26] 图 4-45 一 字形 (Zig-zig) 情 形 





作为 例子 ,考虑 来 自 最 后 的 例子 中 的 树 ， 对 ki 执行 一 次 Find: 


展开 的 第 一 步 是 在 1， 显然 是 一 个 之 字形 , 因此 我 们 用 ki kz 和 ks 执行 一 次 标准 的 AVL 双 
旋转 。 得 到 如 下 的 树 。 
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在 ki 展开 的 下 一 步 是 一 个 一 字形 , 因此 我 们 用 ki ka 和 As 做 一 字形 旋转 , 得 到 最 后 的 树 - 


E) 








虽然 从 一 些小 例子 很 难看 出 来 , 但 是 展开 操作 不 仅 将 访问 的 节点 移动 到 根 处 ,而 且 还 有 把 
访问 路 径 上 的 大 部 分 节点 的 深度 大 致 减少 一 半 的 效果 ( 某 些 浅 的 节点 最 多 向 下 推 后 两 个 层次 )。 

再 来 考虑 将 关键 字 为 1, 2, 3，. .. N 的 节点 插入 到 初始 空 树 中 去 的 效果 。 如 前 所 述 可 
知 共 花费 O(N) 时 间 并 产生 与 一 些 简单 旋转 结果 相同 的 树 。 图 4-46 指出 在 关键 字 为 ! 的 节 
点 展开 的 结果 。 区 别 在 于 , 在 对 关键 字 为 ! 的 节点 访问 (花费 N - 1 个 单元 的 时 间 ) 之 后 , 对 
关键 字 为 2 的 节点 的 访问 只 花费 N/2 个 时 间 单元 而 不 是 N - 2 个 时 间 单 元 ; 不 存在 像 以 前 





那么 深 的 节点 。 
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图 4-46 在 节点 1 展开 的 结果 


对 关键 字 为 2 的 节点 的 访问 将 把 这 些 节点 带 到 距 根 N/4 的 深度 范围 之 内 , 并且 如 此 进行 下 
去 直到 深度 大 约 为 log NUN = 7 的 例子 太 小 , 不 能 很 好 地 看 清 这 种 效果 )。 图 4-47 到 图 4-55 显 
示 在 32 个 节点 的 树 中 访问 关键 字 1 到 9 的 结果 , 这 棵 树 最 初 只 含有 左 儿子 。 我 们 从 伸展 树 得 不 
到 在 简单 旋转 策略 中 常见 的 那 种 低 效率 的 坏 现象 。( 实 际 上 , 这 个 例子 只 是 一 种 非常 好 的 情况 。 
有 -一 个 相当 复杂 的 证 明 指出 ， 对 于 这 个 例子 ，N 次 访问 共 耗费 O(N) 的 时 间 :) 

这 些 图 着 重 强调 了 伸展 树 基本 的 和 关键 的 特性 。 当 访问 路 径 太 长 而 导致 超出 正常 查找 时 
闻 的 时 候 , 这 些 旋转 将 对 未 来 的 操作 有 益 。 当 访问 耗 时 很 少 的 时 候 ， 这 些 旋转 则 不 那么 有 益 
甚至 有 害 。 极 端的 情形 是 经 过 若干 插入 而 形成 的 初始 树 。 所 有 的 插入 都 是 导致 坏 的 初始 树 的 
花费 常数 时 间 的 操作 。 此 时 ,我 们 会 得 到 一 棵 很 差 的 树 ， 但 是 运行 却 比 预 计 的 快 . 从 而 总 的 
较 少 运行 时 间 补偿 了 损失 。 这 样 ， 少数 真正 麻烦 的 访问 却 留 给 我 们 一 棵 几乎 是 平衡 的 树 , 其 
代价 是 我 们 必须 返还 某 些 已 经 省 下 的 时 间 。 我 们 将 在 第 11 章 证 明 的 主要 定理 指出 , 每 个 操 
作 绝 不 会 落后 O(log N) 这 个 时 间 : 我 们 总 是 遵守 这 个 时 间 ， 即使 偶尔 有 些 不 良 操作 。 

我 们 可 以 通过 访问 要 被 删除 的 节点 实行 删除 操作 < 这 种 操作 将 节点 上 推 到 根 处 。 如 果 删 
除 该 节点 , 则 得 到 两 棵 子 树 T, 和 Tk( 左 子 树 和 右 子 树 )。 如 果 我 们 找到 T; 中 的 最 大 的 元 素 
(这 很 容易 ), 那么 这 个 元 素 就 被 施 转 到 T, 的 根 下 , 而 此 时 T, 将 有 一 个 没有 右 儿子 的 根 
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图 4-49 将 前 面 的 树 在 节点 3 处 展开 
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图 4-50 将 前 面 的 树 在 节点 4 处 展开 
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图 4-51 将 前 面 的 树 在 节点 5 处 展开 





图 4-52 将 前 面 的 树 在 节点 6 处 展开 


图 4-53 将 前 面 的 树 在 节点 7 处 展开 


我 们 可 以 使 TR 为 右 儿 子 从 而 结束 删除 。 

对 伸展 树 的 分 析 很 困难 , 因为 树 的 结构 经 常 变化 。 另 一 方面 ,伸展 树 的 编程 要 比 AVL 
树 简单 得 多 , 这 是 因为 要 考虑 的 情形 少 并 且 没 有 平衡 信息 需要 存储 。 实 际 经 验 指出 ,在 实践 
中 它 可 以 转化 成 更 快 的 程序 代码 , 不 过 这 种 状况 还 远 非 完美 。 最 后 , 我 们 指出 , 伸展 树 有 几 
种 变化 , 它们 在 实践 中 甚至 运行 得 更 好 。 有 一 种 变化 在 第 12 章 中 已 被 完全 编程 实现 。 
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图 4-54 将 前 面 的 树 在 节点 8 处 展开 
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图 4-55 将 前 面 的 树 在 节点 9 处 展开 


4.6 树 的 遍历 


由 于 二 又 查 找 树 中 对 信息 进行 了 排序 , 因而 按照 排序 的 顺序 列 出 所 有 的 关键 字 会 很 简 
单 ， 图 4-56 中 的 递归 过 程 就 是 进行 这 项 工作 的 。 





void 
PrintTree( SearchTree T ) 


ifCT t= NULL ) 


PrintTree( T->Left ); 
PrintElement( T->Element ); 
PrintTree( T->Right ); 
} 
} 











图 4-56 按 顺 序 打印 二 又 查找 树 的 例 程 


毫 无 疑问 ,该 过 程 能 够 解决 将 关键 字 排 序列 出 的 问题 。 正 如 我 们 前 面 看 到 的 , 这 类 例 程 
当 用 到 树 上 的 时 候 则 称 为 中 序 遍 历 ( 由 于 它 依 序列 出 了 关键 字 , 因此 是 有 意义 的 )。 中 序 遍 历 
的 一 般 策 略 是 首先 遍历 左 子 树 , 然后 是 当前 的 节点 ,最 后 遍历 右 子 树 。 这 个 算法 的 有 趣 部 分 
除 它 简 单 的 特性 外 , 还 在 于 其 总 的 运行 时 间 是 O(N)。 这 是 因为 在 树 的 每 一 个 节点 处 进行 的 
工作 都 是 常数 时 间 的 。 每 一 个 节点 访问 一 次 ,而 在 每 一 个 节点 进行 的 工作 是 检测 是 否 
NULL. 建立 两 个 过 程 调用 并 执行 PrintElement。 由 于 在 每 个 节点 的 工作 花费 常数 时 间 以 及 
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有 时 我 们 需要 先 处 理 两 个 子 树 然后 才能 处 理 当前 节点 。 例 如 , 为 了 计算 一 个 节点 的 高 
度 , 我 们 需要 知道 它 的 两 棵 子 树 的 高 度 。 图 4-57 中 的 程序 就 是 计算 高 度 的 。 由 于 检查 一 些 
特殊 的 情况 总 是 有 益 的 一 一 当 涉 及 递归 时 尤其 重要 ,因此 要 注意 这 个 例 程 声明 树叶 的 高 度 为 
F, 这 是 正确 的 。 这 种 一 般 的 遍历 顺序 叫做 后 序 遍历 ,我们 在 前 面 也 见 到 过 。 因 为 在 每 个 节 
点 的 工作 花费 常数 时 间 , 所 以 总 的 运行 时 间 也 是 O(N)。 

我 们 见 过 的 第 三 种 常用 的 遍历 格式 为 先 序 遍历 (preorder traversal)。 这 里 ， 当 前 节点 在 其 
儿子 节点 之 前 处 理 。 这 种 遍历 可 以 用 来 利用 节点 深度 标志 每 一 个 节点 。 








| int 
Height( Tree T ) 


CT == NULL ) 
return -1; 
else 
return 1 + Max( Height( T-»Left ), 
Height T-»Right ) 2: 


h 








图 4-57 使 用 后 序 遍 历 计算 树 的 高 度 的 例 程 


所 有 这 些 例 程 有 一 个 共有 的 想法 , 那 就 是 首先 处 理 NULL 的 情形 ， 然 后 才 是 其 余 的 丁 
fk. 注意 , 此 处 缺少 一 些 额外 的 变量 。 这 些 例 程 仅仅 传递 了 树 , 并 没有 声明 或 是 传递 任何 额 
外 的 变量 。 程 序 越 紧凑 ,一 些 轧 夸 的 错误 出 现 的 可 能 就 越 小 。 第 四 种 过 历 用 得 很 少 , 叫做 层 
Jil 5 (level-order traversal), 我 们 以 前 尚未 见 到 过 。 在 层 序 遍 历 中 , 所 有 深度 为 D 的 节点 要 
在 深度 D + 1 的 节点 之 前 进行 处 理 。 层 序 己 历 与 其 他 类 型 的 遍历 不 同 的 地 方 在 于 它 不 是 递归 
地 实施 的 ; 它 用 到 队列 ,而 不 使 用 递归 所 默 示 的 栈 。 


4. B- 树 


虽然 迄今 为 止 我 们 所 看 到 的 查找 树 都 是 二 叉 树 , 但 是 还 有 一 种 常用 的 查找 树 不 是 二 又 
树 。 这 种 树 叫做 B- 树 (B-tree)。 

阶 为 M 的 B- 树 是 一 棵 具有 下 列 结构 特性 的 树 : 

。 树 的 根 或 者 是 一 片 树叶 ,或 者 其 儿子 数 在 2 和 M 之 间 。 

。 除根 外 , 所 有 非 树叶 节点 的 儿子 数 在 TM/21 和 M 之 间 。 

。 所 有 的 树叶 都 在 相同 的 深度 上 。 

所 有 的 数据 都 存储 在 树叶 上 。 在 每 一 个 内 部 节点 上 皆 含有 指向 该 节点 各 儿 了 的 指针 P 
Ps Pu 和 分 别 代表 在 子 树 Pp，P3，. .. Pu PARERE HD RABE DOC k, kos oes 
kuio 当然, 可 能 有 些 指针 是 NULL, 而 其 对 应 的 k; 则 是 未 定义 的 。 对 于 每 一 个 节 
子 树 P, 中 所 有 的 关键 字 都 小 于 子 树 P. 的 关键 字 , 如 此 等 等 。 树叶 包含 所 有 实际 数据 , 这 些 
数据 或 者 是 关键 字 本 身 ,或 者 是 指向 含有 这 些 关键 字 的 记录 的 指针 。 为 使 例子 简单 ,我 们 将 
假设 为 前 者 。B- 树 有 多 种 定义 , 这 些 定义 在 一 些 次 要 的 细节 上 不 同 于 我 们 定义 的 结构 不过， 
我 们 定义 的 BB 树 是 一 种 流行 的 结构 。( 另 一 种 流行 的 结构 允许 实际 数据 存储 在 树叶 上 ,也 可 
以 存储 在 内 部 节点 上 ， 正如 我 们 在 二 又 查找 树 中 所 做 的 那样 - ) 我 们 还 要 求 (暂时 ) 在 ( 非 根 ) 树 
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叶 中 关键 字 的 个 数 也 在 TM/21 和 M 之 间 。 


3 


2 
" 图 4-58 中 的 树 是 4 阶 B- 树 的 一 个 例子 。 
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图 4-58 4 阶 B 树 








4 阶 B- 树 更 流行 的 称呼 是 2-3-4 树 , 而 3 阶 B- 树 叫做 2-3 树 。 我 们 将 通过 2-3 树 的 特殊 情 
形 来 描述 B- 树 的 操作 。 现 在 从 下 面 的 2-3 树 开始 。 
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我 们 用 椭圆 画 出 内 部 节点 ( 非 树 叶 ) ,每 个 节点 含有 两 个 数据 。 椭 加 中 的 短 横 线 表示 内 部 
节点 的 第 二 个 信息 ， 它 表明 该 节点 只 有 两 个 儿子 。 树 叶 用 方 框 画 出 , 框 内 含有 关键 字 。 树 叶 
中 的 关键 字 是 有 序 的 。 为 了 执行 一 次 Find, 我 们 从 根 开始 并 根据 要 查找 的 关键 字 与 存储 在 节 
点 上 的 两 个 (很 可 能 是 一 个 ) 值 之 间 的 关系 确定 (最 多 ) 三 个 方向 中 的 一 个 方向 。 

为 了 对 尚未 见 过 的 关键 字 X 执行 一 次 Insert, 我 们 首先 按照 执行 Find 的 步骤 进行 。 当 到 
达 一 片 树叶 时 , 我 们 就 找到 了 插入 X 的 正确 的 位 置 。 例 如 , 为 了 插入 关键 字 为 18 的 节点 ,我 








8, 11, 12 





16, 17, 18) 




















(134) 们 可 以 就 把 它 加 到 一 片 树叶 上 而 不 破坏 2-3 树 的 性 质 。 插 人 结果 表示 在 下 列 图 中 。 
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不 过 , 由 于 一 片 树叶 只 能 容纳 两 个 或 三 个 关键 字 , 因此 上 面 的 做 法 不 总 是 可 能 的 。 如 果 
我 们 现在 试图 把 1 插入 到 树 中 去 , 那么 就 会 发 现 1 所 属于 的 节点 已 经 满 了 - 将 这 个 新 的 关键 
字 放 人 该 节点 使 得 它 有 了 四 个 关键 字 , 这 是 不 允许 的 。 解 决 的 办 法 是 , 构造 两 个 节点 ， 每 个 
节点 有 两 个 关键 字 , 同时 调整 它们 父 节点 的 信息 , 如 下 图 。 
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然而 ,这 个 想法 也 不 总 能 够 行 得 通 , 我 们 尝试 将 19 插入 到 当前 的 树 中 时 就 会 看 出 问题 。 
如 果 构造 两 个 节点 ,每 个 节点 有 两 个 关键 字 , 那么 我 们 得 到 下 列 的 树 。 


























这 棵 树 的 一 个 内 部 节点 有 了 四 个 儿子 ,可 是 我 们 只 允许 每 个 节点 有 三 个 儿子 。 解 决 方法 
很 简单 。 我 们 只 要 将 这 个 节点 分 成 两 个 节点 , 每 个 节点 两 个 儿子 即 可 。 当 然 , 这 个 节点 本 身 
可 能 就 是 三 个 儿子 节点 之 一 , 而 这 样 分 裂 该 节点 将 给 它 的 父 节 点 带 来 一 个 新 问题 (该 父 节点 
就 会 有 四 个 儿子 ), 但 是 我 们 可 以 在 通 向 根 的 路 径 上 一 直 这 么 分 下 去 ,直到 或 者 到 达 根 节点 ， 
或 者 找到 一 个 节点 ， 这 个 节点 只 有 两 个 儿子 。 在 我 们 的 例子 中 , 通过 用 分 裂 节点 的 方法 我 们 
只 能 到 达 所 见 到 的 第 一 个 内 部 节点 ,得 到 如 下 的 树 。 


2 
us | [me | 6.17 | [ 18, »] wai | ENS 


如 果 现在 插入 关键 字 为 28 的 一 个 元 素 , 那么 就 会 出 现 一 片 具有 四 个 儿子 的 树叶 ， 它 可 以 
分 成 两 片 树叶 , 每 叶 两 个 儿子 : 
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这 样 , 又 产生 一 个 具有 四 个 儿子 的 内 部 节点 ,此 时 它 被 分 成 两 个 儿子 节点 。 我 们 这 里 做 
[136) 的 就 是 把 根 节点 分 成 两 个 节点 。 这 个 时 候 , 我 们 得 到 一 个 特殊 情况 , 通过 创建 一 个 新 的 根 节 
点 我 们 可 以 结束 对 28 的 插入 。 这 是 2-3 树 增加 高 度 的 (惟一 ) 方 法 。 
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还 要 注意 , 当 插 人 一 个 关键 字 的 时 候 , 只 有 在 访问 路 径 上 的 那些 内 部 节点 才 有 可 能 发 生 
变化 。 这 些 变化 与 这 条 路 径 的 长 度 成 比例 ; 但 是 要 注意 , 由 于 需要 处 理 的 情况 相当 多 , 因此 
很 容易 发 生 错 误 。 

对 于 一 个 节点 的 儿子 太 多 的 情况 还 有 一 些 其 他 处 理 方法 ,而 我 们 刚才 描述 的 方法 恺 怕 是 
最 简单 的 情况 。 当 试图 将 第 四 个 关键 字 添 加 到 一 片 树 叶 上 的 时 候 , 我 们 可 以 首先 查找 只 有 两 
个 关键 字 的 兄弟 ,而 不 是 把 这 个 节点 分 裂 成 两 个 。 例 如 , 为 把 70 添加 到 上 面 的 树 中 , 我 们 可 
以 把 58 挪 到 包含 有 41 和 52 的 树叶 中 , 再 把 70 与 59 和 61 放 到 一 起 , 并 调整 一 些 内 部 节点 
中 的 各 项 。 这 个 策略 也 可 以 用 到 内 部 节点 上 并 尽量 使 更 多 的 节点 具有 足够 的 关键 字 。 这 种 方 
法 使 得 例 程 的 编制 稍微 有 些 复杂 , 但 是 浪费 的 空间 较 少 。 

我 们 可 以 通过 查找 要 被 删除 的 关键 字 并 将 其 除去 而 完成 删除 操作 。 如 果 这 个 关键 字 是 一 个 
节点 仅 有 的 两 个 关键 字 中 的 一 个 , 那么 将 它 除 去 后 就 只 剩 一 个 关键 字 了 。 此 时 我 们 可 以 通过 把 
这 个 节点 与 它 的 一 个 兄弟 合并 来 进行 调整 。 如 果 这 个 兄弟 已 有 3 个 关键 字 ， 那么 我 们 可 以 从 中 
取出 一 个 使 得 两 个 节点 各 有 两 个 关键 字 。 如 果 这 个 兄弟 只 有 两 个 关键 字 ， 那么 我 们 就 将 这 两 个 
节点 合并 成 一 个 具有 3 个 关键 字 的 节点 。 现 在 这 个 节点 的 父亲 则 失去 一 个 儿子 ， 因此 我 们 还 须 
向 上 检查 直到 顶部 。 如 果 根 节点 失去 了 它 的 第 二 个 儿子 , 那么 这 个 根 也 要 删除 ， 而 树 则 减少 了 
一 层 。 当 我 们 合并 节点 的 时 候 , 我 们 必须 记 住 要 更 新 保存 在 这 些 内 部 节点 上 的 信息 。 
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对 于 一 般 的 M 阶 B 树 ， 当 插入 一 个 关键 字 时 . 惟一 的 困难 发 生 在 接收 该 关键 字 的 节点 已 
经 具有 M 个 关键 字 的 时 候 。 这 个 关键 字 使 得 该 节点 具有 M + 1 个 关键 字 , 我 们 可 以 把 它 分 裂 
成 两 个 节点 , 它们 分 别 具 有 F(M+ D/2 RI. (M * 1)724 个 关键 字 。 由 于 这 使 得 父 节点 多 出 一 
个 儿子 , 因此 我 们 必须 检查 这 个 节点 是 否 可 被 父 节点 接受 , 如果 父 节 点 已 经 具有 M 个 儿子 ， 
那么 这 个 父 节点 就 要 被 分 裂 成 两 个 节点 。 我们 重复 这 个 过 程 直 到 找到 一 个 父 节 点 具有 少 于 
M 个 儿子 。 如 果 我 们 分 裂 根 节点 ,那么 我 们 就 要 创建 一 个 新 的 根 ,这 个 根 有 两 个 儿子 。 

B- 树 的 深度 最 多 是 [log-w21 Nl- 在 路 径 上 的 每 个 节点 , 我 们 执行 O(log M) 时 间 的 工作 
量 以 确定 选择 哪个 分 支 ( 使 用 折 半 查找 ), 但 是 Insert 和 Delete 可 能 需要 O(M) 的 工作 量 来 调 
整 该 节点 上 的 所 有 信息 。 因 此 , 对 于 每 个 Insert 和 Delete 运算 , 最 坏 情 形 的 运行 时 间 为 
O(M loguN) = O((MAog M) log N), 不 过 一 次 Find 只 花费 O(log NN) 时 间 。 经 验 指出 ， 
从 运行 时 间 考虑 ，M 的 最 好 (合法 的 ) 选 择 是 M = 3 或 M = 4; 这 与 上 面 的 界 一 致 , 它 指 
出 ， 当 M 再 增 大 时 插入 和 删除 的 时 间 就 会 增加 。 如 果 我 们 只 关心 主 存 的 速度 , 则 更 高 阶 的 
H- 树 (如 5-9 树 ) 就 没有 什么 优势 了 。 

B- 树 实际 用 于 数据 库 系 统 ， 在 那里 树 被 存储 在 物理 的 磁盘 上 而 不 是 主 存 中 。 一 般 说 来 ， 
对 磁盘 的 访问 要 比 任何 的 主 存 操作 慢 几 个 数量 级 。 如 果 我 们 使 用 M 阶 B- 树 , 那么 磁盘 访问 
次 数 是 O(logw N)。 虽 然 每 次 磁盘 访问 花费 O(log M) 来 确定 分 支 的 方向 , 但 是 执行 该 操作 
的 时 间 一 般 要 比 读 存储 器 的 区 块 (block) 所 花费 的 时 间 少 得 多 , 因此 可 以 被 认为 是 无 足 轻重 的 
(只 要 M 选择 得 合理 )。 即 使 在 每 个 节点 执行 更 新 要 花费 O(M) 操 作 时 间 , 这 些 花费 一 般 还 
是 不 大 。 此 时 M 的 值 选 择 为 使 得 一 个 内 部 节点 仍然 能 够 装 入 一 个 磁盘 区 块 的 最 大 值 ,那么 
它 - - 般 说 来 是 在 32<M< 256 范围 内 。 选择 存储 在 一 片 树叶 上 的 元 素 的 最 大 个 数 时 ， 要 使 得 
如 果树 叶 是 满 的 那么 它 就 装 满 一 个 区 块 。 这 意味 着 ， 一 个 记录 总 可 以 在 很 少 的 磁盘 访问 中 被 
找到 ,因为 典型 的 B- 树 的 深度 只 有 2 或 3, 而 根 (很 可 能 还 有 第 一 层 ) 可 以 放 在 主 存 中 。 

分 析 指出 , 一 棵 B- 树 将 被 占 满 n 2 = 69% 。 当 一 棵 树 得 到 它 的 第 ( M + 1) 项 时 ， 例 程 不 
是 总 去 分 裂 节点 ,而 是 搜索 能 够 接纳 新 儿子 的 兄弟 ,此 时 我 们 就 能 够 更 好 地 利用 空间 。 具 体 
的 细节 可 以 在 参考 文献 中 找到 。 
总 结 

我 们 已 经 看 到 树 在 操作 系统 、 编 译 器 设计 以 及 查找 中 的 应 用 。 表 达 式 树 是 更 一 般 结 构 即 
所 谓 的 分 析 树 (parse tree) 的 一 个 小 例子 ,分 析 树 是 编译 器 设计 中 的 核心 数据 结构 。 分 析 树 不 
是 二 叉 树 , 而 是 表达 式 树 相对 简单 的 扩充 (不 过 , 建立 分 析 树 的 算法 却 不 是 那么 简单 )。 

查找 树 在 算法 设计 中 是 非常 重要 的 。 它 们 几乎 支持 所 有 有 用 的 操作 ,而 其 对 数 平均 开销 
很 小 .查找 树 的 非 递归 实现 多 少 要 快 一 些 , 但 是 递归 实现 更 讲究 、 更 精彩 ， 而 且 易于 理解 和 
除 错 。 查 找 树 的 问题 在 于 ,其 性 能 严重 地 依赖 于 输入 ,而 输入 则 是 随机 的 。 如 果 情 况 不 是 这 
RE. 则 运行 时 间 会 显著 增加 , 查找 树 会 成 为 昂贵 的 链表 。 

我 们 见 到 了 处 理 这 个 问题 的 几 个 方法 。 AVL 树 要 求 所 有 节点 的 左 子 树 与 右 子 树 的 高 度 
相差 最 多 是 1。 这 就 保证 了 树 不 至 于 太 深 。 不 改变 树 的 操作 都 可 以 使 用 标准 二 又 查 找 树 的 程 


a 
3 


f 


序 。 改变 树 的 操作 必须 将 树 恢复 。 这 多 少 有 些 复 杂 , 特别 是 在 删除 时 。 我 们 叙述 了 在 以 138) 


O(log N) 的 时 间 插 入 后 如 何 将 树 恢复 - 
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我 们 还 考察 了 伸展 树 。 在 伸展 树 中 的 结 点 可 以 达到 任意 深度 , 但 是 在 每 次 访问 之 后 树 又 
以 多 少 有 些 神秘 的 方式 被 调整 。 实际 效果 是 , 任意 连续 M 次 操作 花费 O(M log N) 时 间 , € 
与 平衡 树 花费 的 时 间 相 同 。 

与 2- 路 树 或 二 叉 树 不 同 , B- 树 是 平衡 M- 路 树 , 它 能 很 好 地 匹配 磁盘 ; 其 特殊 情形 是 2-3 
树 , 它 是 实现 平衡 查找 树 的 另 一 种 常用 方法 。 

在 实践 中 , 所 有 平衡 树 方案 的 运行 时 间 都 不 如 简单 二 叉 查找 树 省 时 ( 差 一 个 常数 因子 )， 
但 这 一 般 说 来 是 可 以 接受 的 , 它 防止 轻易 得 到 最 坏 情形 的 输入 。 第 12 章 讨论 另外 一 些 查 找 
树 数据 结构 并 给 出 详细 的 实现 方法 。 

最 后 注意 : 通过 将 一 些 元 素 插 入 到 查找 树 然后 执行 一 次 中 序 遍 历 , 我 们 得 到 的 是 排 过 序 
的 元 素 。 这 给 出 排序 的 一 种 O(N log N) 算 法 , 如果 使 用 任何 成 熟 的 查找 树 则 它 就 是 最 坏 情 
形 的 界 。 我 们 将 在 第 7 章 看 到 一 些 更 好 的 方法 , 不过, 这 些 方法 的 时 间 界 都 不 可 能 更 低 。 


练习 


问题 4. 1 到 4.3 参考 图 4-59 中 的 树 。 
4.1 对 于 图 4-59 中 的 树 : 
a. 哪个 节点 是 根 ? 
b. 哪些 节点 是 树叶 ? 
4.2” 对 于 图 4-59 中 树 上 的 每 一 个 节点 : 
a. 指出 它 的 父 节点 。 
b. 列 出 它 的 子 节点 。 
c. 列 出 它 的 兄弟 节点 。 
d. 计算 它 的 深度 。 
e. 计算 它 的 高 度 。 
4.3 图 4-59 中 树 的 深度 是 多 少 ? 











图 4-59 


4.4 证 明 在 N 个 节点 的 二 叉 树 中 , 存在 N + 1 个 NULL 指针 代表 N + 1 个 儿子 。 
4.5 证 明 在 高 度 为 的 二 叉 树 中 , 节点 的 最 大 个 数 是 2 “! 一 1。 
4.6. 满 节 点 (fuil node) 是 具有 两 个 儿子 的 节点 。 证 明 满 节点 的 个 数 加 1 等 于 非 空 二 叉 树 的 树 


叶 的 个 数 。 
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设 二 叉 树 有 树叶 l, dz, sss. im, 各 树叶 的 深度 分 别 是 1, do, sis, dus WEH, 


NU 2-4 去 1 并 确定 何 时 等 号 成 立 。 


4.8 gunt 图 4-60 中 的 树 的 前 级 表达 式 、 中 组 表达 式 以 及 后 缀 表达 式 。 
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图 4-60 练习 4.8 中 的 树 


a. 指出 将 3, 1, 4, 6, 9, 2, 5, 7 插入 到 初始 为 空 的 二 叉 查找 树 中 的 结果 - 

b. 指出 删除 根 后 的 结果 。 

写 出 实现 基本 二 又 查找 树 操作 的 例 程 。 

使 用 类 似 于 指针 链表 实现 法 的 策略 , 可 以 用 指针 实现 二 又 查找 树 。 使 用 指针 实现 方 

法 写 出 基本 的 二 叉 查 找 树 例 程 。 

设 欲 做 一 个 实验 来 验证 由 随机 Insert/Delete 操作 对 可 能 引起 的 问题 。 这 里 有 一 个 策略 ， 

它 不 是 完全 随机 的 ,但 却 是 足够 封闭 的 。 通 过 插入 从 1 到 M = aN 之 间 随 机 选 出 的 N 个 

元 素来 建立 一 棵 具有 N 个 元 素 的 树 。 然 后 执行 ,N? 对 先 插入 后 删除 的 操作 。 假 设 存在 例 

程 RandomInteger(A,B), 它 返回 一 个 在 A 和 B 之 间 ( 包 括 A、B) 的 均匀 随机 整数 。 

a. 解释 如 何 生成 在 1 和 M 之 间 的 一 个 随机 整数 , 该 整数 不 在 这 棵 树 上 (从 而 随机 插 
人 可 以 进行 )。 用 N 和 a 来 表示 这 个 操作 的 运行 时 间 。 

b. 解释 如 何 生成 在 1 和 M 之 间 的 一 个 随机 整数 , CE PE OA 
而 随机 删除 可 以 进行 )。 这 个 操作 的 运行 时 间 是 多 少 ? 

c. a 的 最 佳 选择 值 是 多 少 ? 为 什么 ? 

编写 一 个 程序 , 任 经 验 估计 删除 具有 两 个 子 节点 的 下 列 各 方法 ， 

a. 用 Ti 中 最 大 节点 X 来 代替 , 递归 地 删除 X- 

b. 交 震 地 用 中 最 大 的 节点 以 及 Ti 中 最 小 的 节点 来 代 赫 , 并 递归 地 删除 适当 的 节点 。 

c。 随机 地 选用 Ti 中 最 大 的 节点 或 Te 中 最 小 的 节点 来 代替 (递归 地 删除 适当 的 节 
点 )。 哪 种 方法 给 出 最 好 的 平衡 ? 哪 种 在 处 理 整个 操作 序列 过 程 中 花费 最 少 的 
CPU 时 间 ? 

证 明 , 随机 二 叉 查找 树 的 深度 (最 深 的 节点 的 深度 ) 平 均 为 O(log N)。 

a. 给 出 高 度 为 H 的 AVL 树 的 节点 的 最 少 个 数 的 精确 表达 式 。 

b. 高 度 为 15 的 AVL 树 中 节点 的 最 少 个 数 是 多 少 ? 

指出 将 2, 1, 4, 5, 9, 3, 6, 7 插入 到 初始 空 AVL 树 后 的 结果 。 

依次 将 关键 字 1, 2，. ..，2* - 1 插入 到 一 棵 初始 空 AVL 树 中 。 证 明 所 得 到 的 树 是 

完全 平衡 的 > 
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4.18 写 出 实现 AVL 单 旋转 和 双 旋转 的 其 余 的 过 程 。 
4.19. 写 出 向 AVL 树 进行 插入 的 非 递归 函数 。 
*4.20 如 何 能 够 在 AVL 树 中 实现 ( 非 微 惰 ) 删 除 ? 
4.21 a. 为 了 存储 一 棵 N 节点 的 AVL 树 中 一 个 节点 的 高 度 , 每 个 节点 需要 多 少 比 特 (bit)? 
b. 使 8 比特 高 度 计数 器 溢出 的 最 小 AVL 树 是 什么 ? 
4.22 ， 写 出 执行 双 旋 转 的 函数 , 其 效率 要 超过 执行 两 个 单 旋转 。 
4.23 指出 依 序 访问 图 4-61 中 的 伸展 树 中 的 关键 字 3,9, 1, 5 后 的 结果 。 





图 4-61 


4.04 ”指出 在 前 一 道 练 习 所 得 到 的 伸展 树 中 删除 具有 关键 字 6 的 元 素 后 的 结果 。 
4.25 由 节点 1 直到 N = 1024 形成 一 棵 只 有 左 儿子 的 伸展 树 。 
a. 该 树 的 内 部 路 径 的 长 准确 地 说 是 多 少 ? 
«b. 在 执行 Find(1)，Find(2)，Find(3)，Find(4)，Find(5)，Find(6) 每 一 个 之 后 计算 
内 部 路 径 长 。 
«c. 如 果 相 继 执行 的 Find 是 连续 的 , 那么 什么 时 候 内 部 路 径 长 达到 最 小 ? 
4.26 a. 证 明 , 如 果 在 一 棵 伸展 树 中 按照 顺序 访问 所 有 的 节点 , 那么 所 得 到 的 结果 是 由 一 
连 串 左 儿 子 组 成 的 树 。 
wb, 证 明 , 如 果 在 一 棵 伸展 树 中 按 顺序 访问 所 有 的 节点 ， 那么 若 不 考虑 初始 树 ， 则 总 
的 访问 时 间 是 O(N). 
4.27 编写 一 个 程序 对 伸展 树 执行 随机 操作 。 计 算 对 序列 执行 的 总 的 旋转 次 数 。 与 AVL 
树 和 非 平衡 二 叉 查 找 树 相 比 , 其 运行 时 间 如 何 ? 
4.28 编写 一 些 高 效率 的 函数 ,只 使 用 指向 二 叉 树 的 根 的 一 个 指针 T, OPERE: 
a. T 中 节点 的 个 数 。 
b. T 中 树叶 的 片 数 。 
c. 工 中 满 节点 的 个 数 。 
4.29 写 出 生成 一 棵 N 节点 随机 二 又 查找 树 的 函数 ,该 树 具有 从 1 直到 N 的 不 同 的 关键 
字 。 你 所 编写 的 例 程 的 运行 时 间 是 多 少 ? 
4.30 ， 写 出 生成 具有 最 少 节点 、 高 度 为 H hY AVL 树 的 程序 ， 该 函数 的 运行 时 间 是 多 少 ? 
4.31 编写 一 个 函数 , 使 它 生成 一 棵 具有 关键 字 从 1 ABT 1 且 高 为 H 的 理想 平衡 
二 又 查找 树 。 该 函数 运行 时 间 是 多 少 ? 
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4.38 


4.39 
4.40 
4.41 


编写 一 个 函数 以 二 叉 查找 树 和 两 个 有 序 的 关键 字 &, W o Oe Sk EKRA, dT 
印 树 中 所 有 满足 ky Key CX) es 的 元 素 X。 除 去 可 以 排序 外 , 不 对 关键 字 的 类 型 
做 任何 假设 。 所 写 的 程序 应 该 以 平均 时 间 O(K + log N) 运 行 , 其 中 K 是 所 打印 
的 关键 字 的 个 数 。 确 定 你 的 算法 的 运行 时 间 界 。 

本 章 中 一 些 更 大 的 二 叉 树 是 由 一 个 程序 白 动 生成 的 。 这 可 以 通过 给 树 的 每 一 个 节点 
指定 坐标 (zx ，y), 围绕 每 个 坐标 画 一 个 圆 图 (在 某 些 图 片 中 这 可 能 很 难看 清 ), 并 将 
每 个 节点 连 到 它 的 父 节点 上 - 假设 在 存储 器 中 存 有 一 棵 二 叉 查 找 树 (或 许 是 由 上 面 
的 一 个 例 程 生成 的 ) 并 设 每 个 节点 都 有 两 个 附加 的 域 存放 坐标 。 

a. 坐标 c 可 以 通过 指定 中 序 遍 历数 来 计算 。 对 于 树 中 的 每 个 节点 写 出 一 个 这 样 的 例 程 。 

b. 坐标 y 可 以 通过 使 用 节点 深度 的 相反 数 算出 。 对 于 树 中 的 每 一 个 节点 写 出 这 样 的 
例 程 。 

c. 若 使 用 某 个 虚拟 的 单位 表示 , 则 所 画图 形 的 具体 尺寸 是 多 少 ? 如 何 调整 单位 使 得 
所 画 的 树 总 是 高 大 约 为 宽 的 三 分 之 二 ? 

d. 证 明 , 使 用 这 个 系统 没有 交叉 线 出 现 , 同时 , 对 于 任意 节点 X，X 的 左 子 树 的 所 

有 元 素 都 出 现在 X 的 左边 , X 的 右 子 树 的 所 有 元 素 都 出 现在 X 的 右边 。 

编写 一 个 一 般 的 画 树 程序 ,该 程序 将 把 一 棵 树 转变 成 下 列 的 图 -组 装 指令 : 

a. Circle(X, Y) 

b. DrawLine( i, j) 

第 一 个 指令 在 (X，Y) 处 画 一 个 圆 , 而 第 二 个 指令 则 连接 第 i 个 圆 和 第 j 个 圆 ( 圆 以 

所 画 的 顺序 编号 ) 。 你 或 者 把 它 写成 一 个 程序 并 定义 某 种 输入 语言 , 或 者 把 它 写成 
-个 函数 , 该 函数 可 以 被 任何 程序 调用 。 你 的 程序 的 运行 时 间 是 多 少 ? 

编写 一 个 例 程 以 层 序 (level-order) 列 出 二 叉 树 的 节点 。 先 列 出 根 , 然后 列 出 深度 为 1 

HOARE AL, 肯 列 出 深度 为 2 的 节点 ,等 等 。 必 须要 在 线性 时 间 内 完成 这 个 工作 。 

证 明 你 的 时 间 界 。 

a. 指出 将 下 列 关键 字 插 入 到 初始 空 2-3 树 后 的 结果 : 3, 1, 4, 5, 9, 2, 6, 8, 7, 0。 
.指出 在 (a) 建 立 的 2-3 树 中 删除 0, 然后 再 删除 9 所 得 到 的 结果 。 


b 
va. 写 出 向 一 棵 B- 树 进行 插入 的 例 程 。 
b. 


. 写 出 从 一 棵 BRT BRA EE, PRES DEB EHE, REOR AUS 
点 的 信息 ? 


«c. 修改 你 的 插 人 例 程 使 得 如 果 想 要 向 一 个 已 经 有 M 项 的 节点 添加 元 素 , 则 在 分 列 


该 节点 以 前 要 执行 搜索 具有 少 于 M 个 儿子 的 兄弟 的 工作 。 
M 阶 B* 树 (B* -tree) 是 其 每 个 内 部 节点 的 儿子 数 在 2M73 和 M 之 间 的 B- 树 。 描 述 
一 种 向 B* 树 进行 插入 的 方法 。 
指出 如 何 用 儿子 /兄弟 指针 实现 方法 表示 图 4-62 中 的 树 。 
编写 一 个 过 程 使 该 过 程 遍 历 一 棵 用 儿子 /兄弟 链 存 储 的 树 。 
如 果 两 棵 二 叉 树 或 者 都 是 空 树 , 或 者 非 空 且 具有 相似 的 左 子 树 和 右 子 树 , 则 这 两 裸 
二 又 树 是 相似 的 。 编 写 一 个 函数 以 确定 是 否 两 棵 二 又 树 是 相似 的 。 
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图 4-62 ”练习 4.39 中 的 树 


4.42 ”如 果树 Ti 通过 交换 其 ( 某 些 ) 节 点 的 左右 儿子 变换 成 树 Ta, 则 称 树 Ti MT. 是 同 
构 的 (isomorphic)。 例 如 , 图 4-65 中 的 两 棵 树 是 同 构 的 , 因为 交换 A,B. G 的 儿子 
而 不 交换 其 他 节点 的 儿子 后 这 两 棵 树 是 相同 的 。 
a. 给 出 一 个 多 项 式 时 间 算法 以 决定 是 否 两 棵 树 是 同 构 的 。 
* b. 你 的 程序 的 运行 时 间 是 多 少 (存在 一 个 线性 的 解决 方案 吗 )? 








图 4-63 两 棵 同 构 的 树 


4.43. «a. 证 明 , 经 过 一 些 AVL 单 旋转 , 任意 二 又 查找 树 Ti 可 以 变换 成 另 一 棵 (具有 相 
同 关键 字 的 ) 查 找 树 T20 
*b. 给 出 一 个 算法 平均 用 O(N log N) 次 旋转 完成 这 种 变换 。 
wec. 证 明 该 变换 在 最 坏 的 情形 下 可 以 用 O(N) 次 旋转 完成 。 
4.44” 设 我 们 想 要 把 运算 FindKth 添加 到 指令 集中 去 。 该 运算 FindKth( T, i) 返回 树 T 
的 具有 第 i 个 最 小 关键 字 的 元 素 。 假 设 所 有 的 元 素 具 有 互 异 的 关键 字 。 解 释 如 何 修 
改 二 叉 树 以 平均 O(log N) 时 间 支 持 这 种 运算 , 而 又 不 影响 任何 其 他 操作 的 时 间 界 。 
4.45 ”由 于 具有 N 个 节点 的 二 又 查找 树 有 N + 1 个 NULL 指针 , 因此 在 二 叉 查找 树 中 指 
定 给 指针 信息 的 空间 的 一 半 被 浪费 了 。 设 若 一 个 节点 有 一 个 NULL ALF, 我们 
使 它 的 左 儿子 指向 它 的 中 组 前 驱 (inorder predecessor), 若 一 个 节点 有 一 个 NULL 4 
儿子 , 我 们 让 它 的 右 儿子 指向 它 的 中 组 后 继 (inorder successor)。 这 就 叫做 线索 树 
(threaded tree) ,而 附加 的 指针 就 叫做 线索 (thread)。 
a. 我 们 如 何 能 够 从 实际 的 儿子 指针 中 区 分 出 线索 ? 
b. 编写 执行 向 由 上 面 描述 的 方式 形成 的 线索 树 进行 插入 和 删除 的 例 程 。 
c. 使 用 线索 树 的 优点 是 什么 ? 
4.46 二 又 查找 树 预先 假设 搜索 是 基于 每 个 记录 只 有 一 个 关键 字 。 设 我 们 想 要 能 够 执行 或 
者 基于 关键 字 Key, 或 者 基于 关键 字 Key, 的 查找 。 
a. 一 种 方法 是 建立 两 棵 分 离 的 二 又 树 。 这 需要 多 少 额外 的 指针 ? 
b. 另 一 种 方法 是 使 用 2-d 树 。2-d 树 类 似 于 二 又 树 ,其 不 同 之 处 在 于 , 在 偶数 层 用 
Key, 来 分 又 ， 而 在 奇数 层 用 Key, 来 分 叉 。 图 4-64 显示 一 棵 2-d 树 ， 以 名 (first 
name) 和 姓 (last name) 作为 关键 字 对 第 二 次 世界 大 战 后 的 美国 总 统 进行 查找 。 
总 统 的 姓名 是 按照 年 代 顺序 插 人 的 (杜鲁门 , 艾森豪威尔 , 肯尼迪 ,约翰 逊 ， 尼克 
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th, 福特 , 卡特 , 里 根 , 布什 , 克林顿 )。 编写 一 个 向 一 棵 2-d 树 进行 插入 的 例 程 。 
c. 编写 一 个 高 效 的 过 程 ， 该 过 程 打印 同时 满足 约 训 Low S Key, S High, 和 Low» 
<Keyr<High MA igo 
d. 指出 如 何 扩充 2-d 树 以 处 理 多 于 两 个 的 搜索 关键 字 。 所 得 到 的 树 叫 做 k-d 树 。 





图 4-64 一 棵 2-d 树 
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第 5 章 MR J 


我 们 在 第 4 章 讨论 了 查找 树 ADT, 它 允 许 对 一 组 元 素 进 行 各 种 操作 。 木 章 讨论 散 列 表 
(hash table) ADT, 不 过 它 只 支持 二 叉 查找 树 所 允许 的 一 部 分 操作 。 

散 列 表 的 实现 常常 叫做 散 列 (hashing): 散 列 是 一 种 用 于 以 常数 平均 时 间 执行 插 人 和 人、 删除 
和 查找 的 技术 。 但是, 那些 需要 元 素 间 任 何 排序 信息 的 操作 将 不 会 得 到 有 效 的 支持 。 因 此 ， 
诸如 FindMin, FindMax 以 及 以 线性 时 间 将 排 过 序 的 整个 表 进行 打印 的 操作 都 是 散 列 所 不 支 
持 的 。 

本 章 的 中 心 数据 结构 是 散 列表 。 我 们 将 

。 看 到 实现 散 列表 的 几 种 方法 。 

t 分 析 比 较 这 些 方法 。 

。 介绍 散 列 的 多 种 应 用 。 

。 将 散 列表 和 二 叉 查找 树 进行 比较 。 


5.1 一 般 想 法 


理想 的 散 列表 数据 结构 只 不 过 是 一 个 包含 有 关键 字 的 具有 固定 大 小 的 数组 。 典 型 情况 
F. 一 个 关键 字 就 是 一 个 带 有 相关 值 (例如 工资 信息 ) 的 字符 串 。 我 们 把 表 的 大 小 记 作 Table- 
Size, 并 将 其 理解 为 散 列 数据 结构 的 一 部 分 而 不 仅仅 是 浮动 于 全 局 的 某 个 变量 。 通 常 的 习惯 
是 让 表 从 0 到 TableSize - 1 变化 ; 稍 后 我 们 就 会 明白 为 什么 要 这 样 。 














每 个 关键 字 被 映射 到 从 0 到 TableSize - | 这 个 范围 中 的 某 o 
个 数 , 并 且 被 放 到 适当 的 单元 中 。 这 个 映射 就 叫做 孝 列 函数 | 
(hash function), 理想 情况 下 它 应 该 运算 简单 并 且 应 该 保证 任何 ? E 
两 个 不 同 的 关键 字 映射 到 不 同 的 单元 。 不 过 , 这 是 不 可 能 的 , 因 ° Re 
为 单元 的 数目 是 有 限 的 ， 而 关键 字 实 际 上 是 用 不 完 的 。 Hit R “一 
们 寻找 一 个 散 列 函 数 ， 该 函数 要 在 单元 之 间 均匀 地 分 配 关键 字 。 | aR 
图 5-1 是 一 个 典型 的 理想 情况 。 在 这 个 例子 中 , john 散 列 到 3， y [— mayo | 
phil 散 列 到 4，dave 散 列 到 6，mary 散 列 到 7。 A e] 
这 就 是 散 列 的 基本 想法 。 剩 下 的 问题 则 是 要 选择 一 个 函数 ， 。 | 





决定 当 两 个 关键 字 散 列 到 同一 个 值 的 时 候 ( 称 为 冲突 (collision)) 
应 该 做 什么 以 及 如 何 确定 散 列表 的 大 小 。 


5.2 Ma 

如 果 输 入 的 关键 字 是 整数 , 则 一 般 合理 的 方法 就 是 直接 返回 ”Key mod TableSize” htt 
果 , 除非 Key 碰巧 具有 某 些 不 理想 的 性 质 - 在 这 种 情况 下 ， 散 列 函数 的 选择 需要 仔细 考虑 。 
例如 , 若 表 的 大 小 是 10 而 关键 字 都 以 0 为 个 位 , 则 此 时 上 述 标准 的 散 列 函 数 就 是 一 个 不 好 的 
选择 。 其 原因 我 们 将 在 后 面 看 到 ,而 为 了 避免 上 面 那 样 的 情况 , 好 的 办 法 通常 是 保证 表 的 大 
小 是 素数 。 当 输入 的 关键 字 是 随机 整数 时 , 散 列 函数 不 仅 算 起 来 简单 而 且 关键 字 的 分 配 也 很 


图 5-1 一 个 理想 的 散 列表 
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均匀 。 

通常 ,关键 字 是 字符 串 ; 在 这 种 情形 下 , 散 列 函数 需要 仔细 地 选择 。 

一 种 选择 方法 是 把 字符 串 中 字符 的 ASCII 码 值 加 起 来 。 在 图 5-2 中 , 我 们 声明 类 型 
Index, 它 是 散 列 函数 的 返回 值 类 型 。 图 5-3 实现 该 想法 并 用 典型 的 C 方式 通过 将 字符 逐个 相 
加 来 处 理 整个 字符 串 。 











typedef unsigned int Index; 








图 5-2 由 散 列 函数 返回 的 类 型 





Index 
Hash( const char *Key, int TableSize ) 
{ 


unsigned int HashVal = 0; 


Misy whileC *Key I= 'NO' ) 
/* att HashVal += *Key++; 


LEVA return HashVal X TableSize; 
! 








图 5-3 一 个 简单 的 散 列 函数 


图 5-3 中 描述 的 散 列 函数 实现 起 来 简单 而 且 能 够 很 快 地 算出 答案 。 不 过 , 如 果 表 很 大 ， 
则 秀 数 将 不 会 很 好 地 分 配 关键 字 。 例 如, BE TableSize = 10007(10 007 是 素数 ), 并 设 所 有 的 
关键 字 至 多 8 个 字符 长 。 由 于 char 型 量 的 值 最 多 是 127, 因此 散 列 函数 只 能 假设 值 在 0 和 
1016 之 间 , 其 中 10167 1278, 显然 这 不 是 一 种 均匀 的 分 配 。 

另 一 个 散 列 函数 由 图 5-4 表示 。 这 个 散 列 函数 假设 Key 至 少 有 两 个 字符 外 加 NULL 结束 
符 。 值 27 表示 英文 字母 表 的 字母 个 数 外 加 一 个 空格 ,而 729= 27°, 该 函数 只 考查 前 三 个 字 
符 , 但 是 , 假如 它们 是 随机 的 , 而 表 的 大 小 像 前 面 那 样 还 是 10007, 那么 我 们 就 会 得 到 一 个 合 
理 的 均衡 分 配 。 可 是 不 巧 的 是 , 英文 不 是 随机 的 。 虽 然 3 个 字符 (忽略 空格 ) 有 26 - 17576 
种 可 能 的 组 合 , 但 查验 词汇 量 足够 大 的 联机 词典 却 揭示 : 3 个 字母 的 不 同 组 合 数 实际 只 有 
2 851。 即 使 这 些 组 合 没有 冲突 , 也 不 过 只 有 表 的 28% 被 真正 散 列 到 。 因 此 ， 虽然 很 容易 计 
算 , 但 是 当 散 列表 足够 大 的 时 候 这 个 函数 还 是 不 合适 的 。 








Index 
Hash( const char *Key, int TableSize ) 


return ( Key[ 0 ] + 27 * Key[ 1] + 729 * Keyl 2 ] ) 
X TableSize; 











图 S-4 AHT fie CU $A AE 
图 5-5 列 出 了 散 列 函 数 的 第 3 种 尝试 。 这 个 散 列 函数 涉及 到 关键 字 中 的 所 有 字符 , 并 且 
一 般 可 以 分 布 得 很 好 ( 它 计算 DDS" Keyl KeySize -ii 一 1] 32'， 并 将 结果 限制 在 适当 的 
范围 内 )。 程 序 根据 Homer 法 则 计算 一 个 (32 的 ) 多 项 式 函数 。 例 如 , 计算 h= kit 27k t 
2P ky 的 另 一 种 方式 是 借助 于 公式 h =《(k3) X 27 + ka) X 27 + ki 进行。 Horner 法 则 将 
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其 扩展 到 用 于 n 次 多 项 式 - 


[ 
| Index 
Hash( const char *Key, int TableSize ) 








unsigned int HashVal = 0; 


3* 19. while( *Key t= '\0' ) 
72 HashVal = ( HashVal << 5 ) + *key-+; 


ar return HashVal X TableSize; 





图 5-5 一 个 好 的 散 列 函数 


我 们 之 所 以 用 32 代替 27, 是 因为 用 32 作 乘 法 不 是 真 的 去 乘 , 而 是 移动 二 进 制 的 5 位 。 
为 了 加 速 ,在 程序 第 2 行 的 加 法 可 以 用 按 位 异 或 来 代替 

图 5-5 所 描述 的 散 列 函数 就 表 的 分 布 而 言 未 必 是 最 好 的 ,但 是 确实 具有 极其 简单 的 优点 
(如 果 允 许 溢出 ,那么 速度 也 很 快 ): 如 果 关 键 字 特 别 长 , 那么 该 散 列 函数 计算 起 来 将 会 花费 
过 多 的 时 间 , 不 仅 如 此 , 前 面 的 字符 还 会 左 移出 最 终 的 结果 - 在 这 种 情况 下 , 通常 的 做 法 是 
不 使 用 所 有 的 字符 。 此 时 关键 字 的 长 度 和 性 质 将 影响 选择 . 例如 , 关键 字 可 能 是 完整 的 街道 
地 址 ， 散 列 函数 可 以 包括 街道 地 址 的 几 个 字符 , 也 许 是 城市 名 和 邮政 区 码 的 几 个 字符 。 有 些 
程序 设计 人 员 通过 只 使 用 奇数 位 置 上 的 字符 来 实现 他 们 的 散 列 函 数 , 这 里 有 这 么 一 层 想法 ; 
用 计算 散 列 函数 节省 下 的 时 间 来 补偿 由 此 产后 的 对 均匀 地 分 布 的 函数 的 轻微 干扰 

剩 下 的 主要 编程 细节 是 解决 冲突 的 消除 问题 如 果 当 一 个 元 素 被 插入 处 另 一 个 元 素 已 经 
存在 ( 散 列 值 相同 ), 那么 就 产生 一 个 冲突 , 这 个 冲突 需要 消除 。 解 决 这 种 冲突 的 方法 有 几 种 ， 
我 们 将 讨论 其 中 最 简单 的 两 种 : 分 离 链 接 法 和 开放 定 址 法 



























































5.3 ”分离 链接 法 

解决 冲突 的 第 一 种 方法 通常 叫做 分 离 链 接 法 (separate of THTT 
chaining) ,其 做 法 是 将 散 列 到 同一 个 值 的 所 有 元 素 保 留 到 一 个 TT THT 
deb, 为 方便 起 见 , 这 些 表 都 有 表 头 ,因此 ， 表 的 实现 与 第 3 LIS 
章 中 的 实现 方法 相同 。 如 果 空 间 很 紧 ， 则 更 可 取 的 方法 是 避免 4 -二 ga- 
使 用 这 些 表 头 。 本 节 我 们 假设 关键 字 是 前 10 个 完全 平方 数 并 s HSR 
设 散 列 函 数 就 是 Hash (X) = X mod 10。( 表 的 大 小 不 是 素数 ，“ 上 -一 二 Car bated 
用 在 这 里 是 为 了 简单 。) 图 5-6 做 出 更 清晰 的 解释 。 ore 

为 执行 Find, TRACT FL S SOR TEE EM TR. o HIHET 
此 时 我 们 以 通常 的 方式 遍历 该 表 并 返回 所 找到 的 被 查找 项 所 在 

图 5-6 分 离 链接 散 列表 


位 置 。 为 执行 Insert, 我 们 遍历 一 个 相应 的 表 以 检查 该 元 素 是 
香 已 经 处 在 适当 的 位 置 (如 果 要 插入 重复 元 , 那么 通常 要 留 出 一 个 额外 的 域 , 这 个 域 当 重复 
元 出 现时 增 1)。 如 果 这 个 元 素 是 个 新 的 元 素 , 那么 它 或 者 被 插入 到 表 的 前 端 , 或 者 被 插入 到 
表 的 末尾 , 哪个 容易 就 执行 哪个 。 当 编写 程序 的 时 候 这 是 最 容易 寻 址 的 一 种 有 时 新 元 素 插 
入 到 表 的 前 端 不 仅 因 为 方便 , 而 且 还 因为 新 近 插入 的 元 素 最 有 可 能 最 先 被 访问 < 

实现 分 离 链接 法 所 需要 的 类 型 声明 在 图 5-7 中 表 出 - 图 中 的 ListNode 结构 与 第 3 章 中 的 
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链表 声明 相同 。 图 中 的 散 列表 结构 包括 一 个 链表 数组 (以 及 数组 中 的 链表 的 个 数 ), 它们 在 散 
列表 结构 初始 化 时 动态 分 配 空间 。 此 处 的 HashTable 类 型 就 是 指向 该 结构 的 指针 类 型 。 





wifndef _HashSep_H 


struct ListNode; 
typedef struct ListNode *Position; 
struct HashTb]; 
typedef struct HashTbl *HashTable; 


HashTable InitializeTable( int TableSize ); 

void DestroyTable( HashTable H ); 

Position Find( ElementType Key, HashTable H ); 

void Insert( ElementType Key, HashTable H ); 
ElementType Retrieve( Position P ); 

/* Routines such as Delete and MakeEmpty are omitted */ 


#endif /* _HashSep_H */ 


/* Place in the implementation file */ 
struct ListNode 
{ 
ElementType Element; 
Position Next; 
k 


typedef Position List; 


/* List *TheList will be an array of lists, allocated later */ 
/* The lists use headers (for simplicity), */ 

/* though this wastes space */ 

struct HashTbl 


int TableSize; 
List *TheLists; 
k 











图 5-7 分离 链 接 散 列表 的 类 型 声明 


TERE, TheList 域 实际 上 是 一 个 指向 指向 ListNode 结构 的 指针 的 指针 。 如 果 不 使 用 这 些 
typedef, 那 可 能 会 相当 混乱 。 

图 5-8 列 出 初始 化 函数 , 它 用 到 与 栈 的 数组 实现 中 相同 的 想法 。 第 4 行 到 第 6 行 给 一 个 
散 列 表 结构 分 配 空间 。 如 果 空间 允许 , 则 互 将 指向 一 个 结构 ,该 结 构 包含 一 个 整数 和 指向 一 
个 表 的 指针 。 第 7 行 设置 表 的 大 小 为 一 素数 , 而 第 8 行 到 第 10 行 则 试图 指定 List 的 一 个 数 
组 。 由 于 List 被 定义 为 一 个 指针 , 因此 结果 为 指针 的 数组 。 

假如 List 的 实现 不 用 表 头 , 那么 我 们 就 可 以 到 此 为 止 了 。 但 是 我 们 使 用 了 表 头 ， 因 此 必 
须 给 每 个 表 分 配 一 个 表 头 并 设置 它 的 Next 域 为 NULL。 这 由 第 11 到 第 15 行 实现 。 当 然 ， 第 
12 行 到 第 15 行 可 以 用 语句 

H- > TheLists[ i ] = MakeEnpty(); 

代替 。 虽 然 我 们 没有 选择 使 用 这 条 语句 ， 但 是 因为 该 例 中 它 胜 过 使 程序 尽 可 能 自 包含 , 所 以 
它 当然 值得 考虑 。 我 们 程序 的 一 个 低 效 之 处 在 于 第 12 行 上 的 malloc HAT T H -> TableSize 
次 。 这 可 以 通过 在 循环 出 现 之 前 调用 一 次 malloc 操作 


H- > Thebists = malloc (H - > TableSize * sizeof (struct ListNode)); 
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HashTable 
i InitializeTable( int TableSize ) 


MashTable H; 


int i; 
je ae/ if( TableSize < MinTableSize ) 
Us sy Error( "Table size too small" ); 
LEVA return NULL; 


) 
/* Allocate table */ 








"E H = malloc( sizeof( struct HashTbl ) ): 
ys 5*/ if( H == NULL ) 
/* 6*/ FatalError( "Out of space!!!" ); 
py H-»TableSize = NextPrime( TableSize ); 

/* Allocate array of lists */ 
/* 8*/ W-»TheLists = malloc( sizeof( List ) * H->TableSize ); 
/* 9*/ if( H-»TheLists == NULL ) 
/*10*/ FatalError( "Out of space!!!" 

/* Allocate list headers */ 
A111 for( i = 0; i < H->TableSize; i++ ) 

{ 
/212°/ H->TheLists[ i ] = malloc( sizeof( struct ListNode ) 2; 
/*13*/ if( H-»Thelists[ i ] == NULL ) 
7*1] FatalError( "Out of space!!!" ); 

else 

mas" H->TheLists[ i J->Next = NULL; 

) 
/*16*/ return H; 











图 5-8 分离 链 接 散 列表 的 初始 化 例 程 


[BUR 12 行 来 避免 。 第 16 行 返回 He 
对 Find( Key，F) 的 调用 将 返回 一 个 指针 ,该 指针 指向 包含 Key 的 那个 单元 。 实 现 它 的 


程序 在 图 5.9 中 表 出 。 注 意 , 第 2 行 到 第 5 行 等 同 于 第 3 章 中 给 出 的 执行 Find 的 程序 。 因 此 ， 
第 3 章 中 表示 ADT 的 实现 方法 可 以 用 到 这 里 。 记 住 , 如果 ElementType 是 一 个 字符 串 ,那么 
比较 和 赋值 必须 相应 地 使 用 stremp 和 strcpy 来 进行 。 








Position 
Find( ElementType Key, HashTable H ) 
1 
Position P; 
List L; 
| ay L = HesTheLists{ Hash( Key, H-»TableSize ) ]: 
| 7s 287 P = L->Next; 
EI while( P t= NULL && P-»Element != Key ) 
/* Probably need strcmp!! */ 
Jtt P = P->Nexti 
Le So/ return P; 
1 





图 5-9 分 离 连接 散 列表 的 Find 例 程 
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下 一 个 是 插入 例 程 。 如 果 要 插入 的 项 已 经 存在 , 那么 我 们 就 什么 也 不 做 ; 否则 我 们 把 它 
放 到 表 的 前 端 ( 见 图 5-10)。9 该 元 素 可 以 放 在 表 的 任何 地 方 ; 此 处 这 样 做 是 最 方便 的 。 注 意 ， 
插入 到 表 的 前 端的 程序 基本 上 等 同 于 第 3 章 中 使 用 链表 实现 Push 的 程序 。 如 果 第 3 章 中 的 
那些 ADT 都 已 经 仔细 地 实现 了 , 那么 它们 就 可 以 用 到 这 里 。 





void 
Insert( ElementType Key, HashTable H ) 
t 

Position Pos, NewCell; 

List L; 


Arr Pos = Find( Key, H ); 
my if( Pos == NULL ) /* Key is not found */ 
t 

It 3n NewCell = malloc( sizeof( struct ListNode ) ); 
feat ifC NewCell == NULL ) 
It 5n FatalError( "Out of space!!!" ); 

else 

t 
/* 6n L = H-»TheLists[ Hash( Key, H-»TableSize ) J; 
f NewCell->Next  L-»Next; 
/* 8*/ NewCell-»Element = Key; /* Probably need strcpy! */ 
/* 9" L-»Next = NewCell; 











图 5-10 ”分离 链接 散 列表 的 Insert 例 程 


图 5-10 中 的 插入 例 程 写 得 多 少 有 些 不 好 ， 因为 它 计 算 了 两 次 散 列 函数 。 多 余 的 计算 总 是 
不 好 的 , 因此 , 如 果 这 些 散 列 例 程 真 的 构成 程序 运行 时 间 的 重要 部 分 , 那么 这 个 程序 就 应 该 
重 写 。 

删除 例 程 是 链表 中 的 删除 操作 的 直接 实现 ,因此 我 们 不 在 这 里 更 述 。 如 果 在 散 列 的 诸 例 
程 中 不 包括 删除 操作 , 那么 最 好 不 要 使 用 表 头 ,因为 使 用 表 头 不 仅 不 能 简化 问题 而 且 还 要 浪 
费 大 量 的 空间 。 我 们 也 把 它 作为 一 道 练习 留 给 读者 。 

除 链表 外 ,任何 的 方案 都 有 可 能 用 来 解决 冲突 现象 ; 一 棵 二 叉 查找 树 甚至 另外 一 个 散 列 
表 均 可 胜任 , 但 是 我 们 期 望 如 果 表 大 , 同时 散 列 函数 好 , 那么 所 有 的 表 就 应 该 短 ， 这 样 就 不 
至 于 进行 任何 复杂 的 尝试 了 。 

我 们 定义 散 列表 的 装填 因子 (load factor) A. 为 散 列表 中 的 元 素 个 数 与 散 列表 大 小 的 比值 。 
在 上 面 的 例子 中 , A = 1.0。 表 (list) 的 平均 长 度 为 。 执 行 一 次 查找 所 需要 的 工作 是 计算 散 
列 函 数值 所 需要 的 常数 时 间 加 上 遍历 表 (list) 所 用 的 时 间 。 在 一 次 不 成 功 的 查找 中 , 遍历 的 链 
接 数 平均 为 (不 包括 最 后 的 NULL 链接 )。 成 功 的 查找 则 需要 遍历 大 约 1 十 (42) 个 链接 ; 
它 保证 必然 会 遍历 一 个 链接 (因为 查找 是 成 功 的 )， 而 我 们 也 期 望 沿 着 一 个 表 (list) 中 途 就 能 
找到 匹配 的 元 素 。 这 就 指出 , 表 的 大 小 实际 上 并 不 重要 ,而 装填 因子 才 是 重要 的 。 分 离 连 接 
散 列 的 一 般 法 则 是 使 得 表 的 大 小 尽量 与 预料 的 元 素 个 数 差不多 ( 换 句 话说 , 让 A~1) 0 正如 前 
面 提 到 的 ,使 表 的 大 小 是 素数 以 保证 一 个 好 的 分 布 , 这 也 是 一 个 好 的 想法 。 


O ” 由 于 图 5-6 中 的 表 是 通过 插入 到 表 的 末端 建立 的 , 因此 图 5-10 中 的 程序 将 产生 一 个 将 图 5-6 中 的 表 倒转 过 来 的 表 。 
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5.4 开放 定 址 法 


分 离 链 接 散 列 算法 的 缺点 是 需要 指针 , 由 于 给 新 单元 分 配 地 址 需要 时 间 , 因此 这 就 导致 
算法 的 速度 多 少 有 些 减 慢 ,. 同时 算法 实际 上 还 要 求 对 另 一 种 数据 结构 的 实现 。 除 使 用 链表 解 
决 冲突 外 ,开放 定 址 散 列 法 (Open addressing hashing) 是 另外 一 种 用 链表 解决 冲突 的 方法 。 在 
开放 定 址 散 列 算法 系统 中 , 如 果 有 冲突 发 生 . 那么 就 要 尝试 选择 另外 的 单元 , 直到 找 出 空 的 
单元 为 止 . 更 一 般 地 , 单元 ACD. hi(X), R3 0X), 等 等 ,相继 被 试 选 , 其 中 h,(X) = 
(Hash(X) + F(i)) mod TableSize, H F(0) = 0. 函数 下 是 冲突 解决 方法 。 因为 所 有 的 数 
据 都 要 置信 表 内 ,所 以 开放 定 址 散 列 法 所 需要 的 表 要 比分 离 链 接 散 列 用 表 大 。 一 般 说 来 对 
并 放 定 址 散 列 算法 来 说 , 装填 因子 应 该 低 于 * = 0.5. 现在 我 们 就 来 考察 三 个 通常 的 冲突 解 
决 方法 。 

5.4.1 线性 探测 法 

在 线性 探测 法 中 , 函数 下 是 i 的 线性 函数 , BOSE FG) = i。 这 相当 于 逐个 探测 每 
个 单元 (必要 时 可 以 绕 回 ) 以 查找 出 一 个 空 单元 。 图 5-11 显示 使 用 与 前 面相 同 的 散 列 函 数 将 
WHEE (89, 18, 49, 58, 691 插 入 到 一 个 散 列表 中 的 情况 ,而 此 时 的 冲突 解决 方法 就 是 
FG) = i; 
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图 5-11 每 次 插入 后 使 用 线性 探测 得 到 的 开放 定 址 散 列表 


第 一 个 冲突 在 插入 关键 字 49 时 产生 ; 它 被 放 入 下 一 个 空 闪 地 址 ， 即 地 址 0, 该 地 址 是 开 
放 的 ,关键 字 SS 依次 和 18, 89, 49 发 生 冲突 , 试 选 三 次 之 后 才 找到 一 个 空 单元 。 对 69 的 冲 
突 用 类 似 的 方法 处 理 。 只 要 表 足 够 大 ,总 能 够 找到 一 个 自由 单元 , 但 是 如 此 花费 的 时 间 是 相 
当 多 的 ,更 粳 的 是 , 即使 表 相对 较 空 ， 这 样 占据 的 单元 也 会 开始 形成 一 些 区 块 ,其 结果 称 为 
一 次 聚集 (primary clustering), FE, 散 列 到 区 块 中 的 任何 关键 字 者 需要 多 次 试 选单 元 才能 够 
解决 冲突 ,然后 该 关键 字 被 添加 到 相应 的 区 块 中 。 

虽然 我 们 不 在 这 里 进行 具体 计算 ,但 是 可 以 证 明 , 使 用 线性 探测 的 预期 探测 次 数 对 于 插 
入 和 不 成 功 的 查找 来 说 大 约 为 二 (1 + 1/(1 - A. 而 对 于 成 功 的 查找 来 说 则 是 广 (L + 1/ 
Q3). 相关 的 一 些 计算 多 少 有 些 复杂 。 从 程序 中 容易 看 出 ,插入 和 不 成 功 查找 需要 相同 
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次 数 的 探测 。 略 加 思考 不 难得 出 , 成 功 查找 应 该 比 不 成 功 查找 平均 花费 较 少 的 时 间 。 

如 果 聚 集 不 算是 问题 , 那么 对 应 的 公式 就 不 难得 到 。 我 们 假设 有 一 个 很 大 的 表 , 并 设 每 
次 探测 都 与 前 面 的 探测 无 关 。 对 于 随机 冲突 解决 方法 而 言 , 这 些 假设 是 成 立 的 , 并 且 当 4 不 
是 非常 接近 于 1 时 也 是 合理 的 。 首 先 , 我 们 导出 在 一 次 不 成 功 查找 中 探测 的 期 望 次 数 ， 而 这 
正 是 直到 我 们 找到 一 个 空 单元 的 探测 的 期 望 次 数 。 由 于 空 单元 所 占 的 份额 为 - 4, 因此 我 
们 预计 要 探测 的 单元 数 是 1/(1 一 )。 一 次 成 功 查找 的 探测 次 数 等 于 该 特定 元 素 插 入 时 所 需 
要 的 探测 次 数 。 当 一 个 元 素 被 插入 时 ,可 以 看 成 是 一 次 不 成 功 查找 的 结果 。 因 此 , 我 们 可 以 
使 用 一 次 不 成 功 查找 的 开销 来 计算 一 次 成 功 查找 的 平均 开销 。 

需要 指出 , 4 在 0 到 当前 值 之 间 变 化 ,因此 早期 的 插入 操作 开销 较 少 ,从 而 降低 平均 开 
销 。 例 如 , 在 上 面 的 表 中 , A = 0.5, 访问 18 的 开销 是 在 18 被 插入 时 确定 的 , 此 时 X = 0.2。 
由 于 18 是 插入 到 一 个 相对 空 的 表 中 , 因此 对 它 的 访问 应 该 比 新 近 插入 的 元 素 (比如 69) 的 访 
问 更 容易 。 我 们 可 以 通过 使 用 积分 计算 插入 时 间 平 均值 的 方法 来 估计 平均 值 , 如 此 得 到 
1 - a 
这 些 公式 显然 优 于 线性 探测 那些 相应 的 公式 。 聚 集 不 仅 是 理论 上 的 问题 ， 而 且 实际 上 也 发 生 
在 具体 的 实现 中 。 图 5-12 把 线性 探测 的 性 能 ( 虚 曲 线 ) 与 对 更 随机 冲突 解决 方法 中 期 望 的 性 
能 作 了 比较 。 成功 的 查找 用 S 标示, 不 成 功 查找 和 插 人 分 别 用 U 和 工 标记 。 
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图 5-12 ”对 线性 探测 (虚线 ) 和 随机 方法 的 装填 因子 画 出 的 探测 次 数 
(S 为 成 功 查找 ; U 为 不 成 功 查找 ; 而 1 为 插入 ) 


MRA = 0.75, 那么 上 面 的 公式 指出 在 线性 探测 中 一 次 插入 预计 探测 8.5 次 。 如 果 X= 
0.9, 则 预计 探测 50 次 , 这 是 不 合理 的 。 假 如 聚集 不 是 问题 , 那么 这 可 与 相应 装填 因子 的 4 次 
和 10 次 探测 相 比 。 从 这 些 公式 看 到 , 如 果 表 可 以 有 多 于 一 半 被 填 满 的 话 ， 那么 线性 探测 就 不 
是 个 好 办 法 。 然 而 , 如 果 A = 0.5, 那么 插入 操 作 平均 只 需要 探测 2.5 次 ， 并 且 对 于 成 功 的 查 
找平 均 只 需要 探测 1.5 次 。 


5.4.2 平方 探测 法 

平方 探测 是 消除 线性 探测 中 一 次 聚集 问题 的 冲突 解决 方法 。 平方 探测 就 是 冲突 函数 为 二 
次 函数 的 探测 方法 。 流行 的 选择 是 F(i) = S, 图 5-13 显示 了 使 用 该 冲突 函数 所 得 到 的 与 前 
面 线性 探测 例子 相同 的 开放 定 址 散 列表 。 


当 49 与 89 冲突 时 , 其 下 一 个 位 置 为 下 一 个 单元 , 该 单元 是 空 的 , 因此 49 就 被 放 在 那 
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里 . 此 后 , 58 在 位 置 8 处 产生 冲突 , 其 后 相 邻 的 单元 经 探测 得 知 发 生 了 另外 的 冲突 。 下 一 个 
探测 的 单元 在 距 位 置 8 为 2 = 4 远 处 , 这 个 单元 是 个 空 单元 。 因 此 , 关键 字 58 就 放 在 单元 2 
处 - 对 于 关键 字 69, 处 理 的 过 程 也 一 样 。 
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图 5-13 在 每 次 插 人 后 , 利用 平方 探测 得 到 的 开放 定 址 散 列表 


对 于 线性 探测 , 让 元 素 几 乎 填 满 散 列 表 并 不 是 个 好 主意 , 因为 此 时 表 的 性 能 会 降低 。 对 
于 平方 探测 情况 甚至 更 糟 : 一 旦 表 被 填 满 超 过 一 半 ， 当 表 的 大 小 不 是 素数 时 甚至 在 表 被 填 满 
一 半 之 前 , 就 不 能 保证 一 次 找到 一 个 空 单元 了 。 这 是 因为 最 多 有 表 的 一 半 可 以 用 作 解决 冲突 
的 备 选 位 置 。 

我 们 现在 就 来 证 明 , 如 果 表 有 一 半 是 空 的 , 并 且 表 的 大 小 是 素数 , 那么 我 们 保证 总 能 够 
插 和 人 一 个 新 的 元 素 。 

定理 5.1 

如 果 使 用 平方 探测 , 且 表 的 大 小 是 素数 , 那么 当 表 至 少 有 一 半 是 空 的 时 候 , 总 能 够 插入 

-个 新 的 元 素 。 

证 明 : 

令 表 的 大 小 TableSize 是 一 个 大 于 3 的 ( 奇 ) 系 数 。 我 们 证 明 , 前 L TableSize/ 2J 个 备 选 位 
置 是 互 异 的 。 A(X) + i2(mod TableSize ) 和 h(X) + j^ (mod TableSize ) 是 这 些 位 置 中 的 两 
个 , 其 中 0 < i, jb TableSize/ 2). 为 推出 矛盾 , 假设 这 两 个 位 置 相同 , 但 ; Aj, 于 是 

h(X) + P= h(X) + j? (mod TableSize ) 
nm p (mod TableSize ) 

B-eg-0 (mod TableSize ) 

q-760*770 (mod TableSize ) 
由 于 TableSize 是 素数 , 因此 , 要 么 (i — jj) 等 于 0(mod TableSize), 要 人 么 (i + j) 4T 0(mod 
TableSize)。 既然 i 和 j 是 互 异 的 , 那么 第 一 个 选择 是 不 可 能 的 。 但 0 < i. JL lableSize/ 
21, 因此 第 二 个 选择 也 是 不 可 能 的 。 从 而 , 前 LTableSize/ 2J 个 备 选 位 置 是 互 异 的 。 由 于 机 被 
插入 的 元 素 ( 若 无 任何 冲突 发 生 ) 也 可 以 放 到 经 散 列 得 到 的 单元 ， 因此 任何 元 素 都 有 
[ TableSize /21 个 可 能 被 放 到 的 位 和 置 。 如 果 最 多 有 | TableSize / 2J 个 位 置 可 以 使 用 , 那么 空 单 


元 总 能 够 找到 。 
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哪怕 表 有 比 一 半 多 一 个 的 位 置 被 填 满 , 那么 插入 都 有 可 能 失败 (虽然 这 是 非常 难以 见 到 
的 )。 把 它 记 住 很 重要 。 另外, 表 的 大 小 尾 素数 也 非常 重要 。S 如 果 表 的 大 小 不 是 素数 , 则 备 
选单 元 的 个 数 可 能 会 锐 碱 。 例如, 若 表 的 大 小 是 16, 那么 备 选单 元 只 能 在 距 散 列 值 1, 4 或 9 
距离 处 。 

在 开放 定 址 散 列表 中 , 标准 的 删除 操作 不 能 施行 ,因为 相应 的 单元 可 能 已 经 引起 过 冲 
R, 元 素 绕 过 它 存在 了 别处 。 例 如 ,如果 我 们 删除 89, 那么 实际 上 所 有 其 他 的 Find 例 程 都 将 
不 能 正确 运行 。 因 此 , 开放 定 址 散 列表 需要 懒惰 删除 , 虽然 在 这 种 情况 下 并 不 存在 真正 意义 
上 的 懒惰 。 

实现 开放 定 址 散 列 方法 所 需要 的 类 型 声明 在 图 5-14 中 表示 。 这 里 , 我 们 不 用 链表 数组 ， 
而 是 使 用 散 列 表 项 单元 的 数组 ,与 在 分 离 链 接 散 列 中 一 样 , 这 些 单元 也 是 动态 分 配 地 址 的 。 
该 表 的 初始 化 (图 5-15) 由 分 配 空 间 (第 1 行 到 第 10 行 ) 及 其 后 的 将 每 个 单元 的 Info 域 设 置 为 
Empty 组 成 。 





#ifndef _HashQuad_H 


typedef unsigned int Index; 
typedef Index Position; 


struct HashTb}; 
typedef struct HashTb] *HashTable; 


HashTable InitializeTable( int TableSize ); 
void DestroyTable( HashTable H ); 

Position Find( ElementType Key, HashTable H ); 

void Insert( ElementType Key, HashTable H ); 
ElementType Retrieve( Position P, HashTable M ); 
HashTable Rehash( HashTable H ); 

/* Routines such as Delete and MakeEmpty are omitted */ 


wendif /* HashQuad.H */ 
/* Place in the implementation file */ 
enum KindOfEntry ( Legitimate, Empty, Deleted }; 
struct HashEntry 
ElementType Element; 
enum KindOfEntry Info; 
k 
typedef struct MashEntry Cell; 
/* Cell *TheCells will be an array of */ 
/* Hashentry cells, allocated later */ 
struct HashTbl 
int TableSize; 


Cell *TheCells; 
n 











图 5-14 ”开放 定 址 散 列表 的 类 型 声明 


O ”如果 表 的 大 小 是 形 如 Ak + 3 的 素数 ， 且 使 用 的 平方 冲突 解 决 方法 为 F(i) = + 2, 那么 整个 表 均 可 被 探测 到 。 其 代 
价 则 是 例 程 要 略微 复杂 = 
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HashTable 
InitializeTable( int TableSize ) 
{ 

HashTable H; 


int i; 
i if( TableSize « MinTableSize ) 

{ 
Jti Error( "Table size too small" ); 
Je 3*/ return NULL; 


H 


/* Allocate table */ 





/* an H = malloc( sizeof( struct HashTbl ) ); 

Le se if( H == NULL ) 

/* 6*/ FatalError( "Out of space!!!" ); 

rM H-»TableSize = NextPrime( TableSize ); 
/* Allocate array of Cells */ 

/* 8*/ H-»TheCells = malloc( sizeof( Cell ) * H-»TableSize ); 

/* 9 if( H-»TheCells == NULL ) 

/*10*/ FatalError( “Out of space!!!" ); 

/elle/ for( i = 0; 1 < H-»TableSize; i++ ) 

fae H-»TheCells[ i ] .Info = Empty; 

[mna return H; 











图 5-15 初始 化 开放 定 址 散 列表 的 例 程 


如 同 分 离 链接 散 列 法 一 样 ，Find( Key, 万 ) 将 返回 Key 在 散 列表 中 的 位 置 。 如 果 Key 不 
出 现 , 那么 Find 将 返回 最 后 的 单元 。 该 单元 就 是 当 需 要 时 ，Key 将 被 插入 的 地 方 。 此 外 , 因 
为 被 标记 了 Empty, 所 以 表达 Find 失败 很 容易 。 为 了 方便 起 见 , 我 们 假设 散 列表 的 大 小 至 少 
为 表 中 元 素 个 数 的 二 倍 , 因此 平方 探测 方法 总 能 够 实现 。 否 则 , 我们 就 要 在 第 4 行 前 测试 i 
(CollisionNum)。 在 图 5-16 的 实现 中 , 标记 为 删除 的 那些 元 素 被 认为 还 在 表 内 。 这 可 能 引起 

-此 问题 , 因为 该 表 可 能 提前 过 满 。 我 们 现在 就 来 讨论 它 。 





Position 
Find( ElementType Key, HashTable H ) 


Position CurrentPos; 
int CollisionNum; 


fta CollisionNum = 0; 
ye 28 CurrentPos = Hash( Key, H->TableSize ); 
#3) while( H-»TheCells[ CurrentPos ].Info != Empty && 


H-»TheCells( CurrentPos ] .Element != Key ) 
/* Probably need strcmp!! */ 
i 


is aty CurrentPos += 2 * ++CollisionNum - 1; 
DU ifC CurrentPos >= H-»TableSize ) 
/* 6*/ CurrentPos -= H->TableSize; 
i 
pM return CurrentPos; 











图 5-16 ”使 用 平方 探测 散 列 法 的 Find ME 


第 4 行 到 第 6 行为 进行 平方 探测 的 快速 方法 。 由 平方 解决 函数 的 定义 可 知 , FU) = 
FU - 1) + 2i - 1, 因此 , 下 一 个 要 探测 的 单元 可 以 用 乘 以 2( 实 际 上 就 是 进行 一 位 二 进 

















122 RSE 





制 移 位 ) 并 减 1 来 确定 。 如 果 新 的 定位 越过 数组 , 那么 可 以 通过 减 去 TableSize 把 它 拉 回 到 数 
组 范围 内 。 这 比 通常 的 方法 要 快 , 因为 它 避 兔 了 看 似 需 要 的 乘法 和 除法 。 注意 一 条 重要 的 警 
告 : 第 三 行 的 测试 顺序 很 重要 , 切 勿 改变 它 ! 

最 后 的 例 程 是 插入 。 正 如 分 离 链接 散 列 方法 那样 , 若 Key 已 经 存在 , 则 我 们 就 什么 也 不 
做 。 其 他 工作 只 是 简单 的 修改 。 否 则 , 我 们 就 把 要 插入 的 元 素 放 在 Find 例 程 指出 的 地 方 。 程 
序 在 图 5-17 中 显示 。 





void 
Insert( ElementType Key, HashTable H ) 
{ 


Position Pos; 


Pos = Find( Key, H 2; 
if( H->TheCe115[ Pos ].Info != Legitimate ) 


{ 

/* OK to insert here */ 
H-»TheCells[ Pos ].Info = Legitimate; 
H-»TheCells[ Pos ] .ETement = Key; 

/* Probably need strcpy! */ 








图 5-17 使 用 平方 探测 散 列表 的 插入 例 程 


虽然 平方 探测 排除 了 一 次 聚集 , 但 是 散 列 到 同一 位 置 上 的 那些 元 素 将 探测 相同 的 备 选单 
Jio XM = AIH (secondary clustering)。 二 次 聚集 是 理论 上 的 一 个 小 缺 凰 。 模拟 结果 指出 ， 
对 每 次 查找 , 它 一 般 要 引起 另外 的 少 于 一 半 的 探测 。 下 面 的 技术 将 会 排除 这 个 缺 岩 , 不 过 这 
要 花费 另外 的 一 些 乘法 和 除法 。 


5.4.8 XM 
我 们 将 要 考察 的 最 后 一 个 冲突 解决 方法 是 双 散 列 (double hashing)。 对 于 双 散 列 ， 一 种 流 
行 的 选择 是 FG) = i + hash2(X)。 这 个 公式 是 说 , 我 们 将 第 二 个 散 列 函 数 应 用 到 X 并 在 距 


离 hash2( 义 ), 2hash2(X) 等 处 探测 。hash2(XX) 选 择 得 不 好 将 会 是 灾难 性 的 。 例如, 若 把 99 插 
入 到 前 面 例子 中 的 输入 中 去 , 则 通常 的 选择 hash; (X) = X mod 9 将 不 起 作用 。 因此， 函数 
一 定 不 要 算得 0 值 。 另外 , 保证 所 有 的 单元 都 能 被 探测 到 (在 下 面 的 例子 中 这 是 不 可 能 的 , 因 
为 表 的 大 小 不 是 素数 ) 也 是 很 重要 的 。 诸 如 hashz(X) = R - (X mod R) 这 样 的 函数 将 起 到 
良好 的 作用 , 其 中 R 为 小 于 TableSize 的 素数 。 如 果 我 们 选择 R = 7, 图 5-18 则 显示 插入 与 
前 面相 同 的 关键 字 的 结果 。 

第 一 个 冲突 发 生 在 49 被 插入 的 时 候 。hash2(49) = 7 - 0 = 7, 故 49 被 插入 到 位 置 6。 
hashy(58) = 7 - 2 = 5, 于 是 58 被 插入 到 位 置 3。 BUG, 69 产生 冲突 ， 从 而 被 插入 到 距离 
为 hash2(69) = 7 - 6 = 1 的 地 方 。 如 果 我 们 试图 将 60 插入 到 位 置 0 处 , 那么 就 会 产生 一 个 
冲突 。 由 于 hash2(60) = 7 - 4 = 3, 因 此 我 们 尝试 位 置 3, 6, 9, 然后 是 2， 直到 找 出 一 个 空 
的 单元 。 一 般 是 有 可 能 发 现 某 个 坏 情形 的 , 不 过 这 里 没有 太 多 这 样 的 情形 。 

前 面 已 经 提 到 ， 上 面 的 散 列 表 实例 的 大 小 不 是 素数 。 我 们 这 么 做 是 为 了 计算 散 列 函数 时 
方便 , 但 是 ， 有 必要 了 解 在 使 用 双 散 列 时 为 什么 保证 表 的 大 小 为 素数 是 重要 的 。 如 果 想 要 把 
23 插入 到 表 中 , 那么 它 就 会 与 58 发 生 冲 突 。 由 于 hash2(23) = 7 -2=5， 且 该 表 大 小 是 
10, 因此 我 们 只 有 一 个 备 选 位 置 , 而 这 个 位 置 已 经 使 用 了 。 因 此 ， 如 果 表 的 大 小 不 是 素数 , W 
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么 备 选单 元 就 有 可 能 提前 用 完 。 然而 , 如 果 双 散 列 正确 实现 , 则 模拟 表明 , 预期 的 探测 次 数 
几乎 和 随机 冲突 解决 方法 的 情形 相同 。 这 使 得 双 散 列 理论 上 很 有 吸引 力 - 不 过 , 平方 探测 不 
需要 使 用 第 二 个 散 列 函 数 ， 从 而 在 实践 中 可 能 更 简单 并 且 更 快 。 

































































空 表 | 插入 s9 | 插入 Is | HAG HAs BAG | 
o | 69 
1 T 
- | ENS —| 
3 | 58 ss 
4 
4 | 
s | 
7 | | i 
| 8 | 18 18 | 18 i8 j 
iz | 39 ss $|smjs 









































图 5-18 ”使 用 双 散 列 方法 的 开放 定 址 散 列表 


5.5 再 散 列 


对 于 使 用 平方 探测 的 开放 定 址 散 列 法 ,如 果 表 的 元 素 填 得 太 满 ,那么 操作 的 运行 时 间 将 
开始 消耗 过 长 ， 且 Insert 操作 可 能 失败 。 这 可 能 发 生 在 有 太 多 的 移动 和 插入 混合 的 场合 。 此 
时 ,一 种 解决 方法 是 建立 另外 一 个 大 约 两 倍 大 的 表 ( 而 且 使 用 一 个 相关 的 新 散 列 函数 )， 扫描 
整个 原始 散 列表 , 计算 每 个 (未 删除 的 ) 元 素 的 新 散 列 值 并 将 其 插入 到 新 表 中 。 

例如 , 设 将 元 素 13, 15, 24 和 6 插入 到 大 小 为 7 的 开放 定 址 散 列表 中 散 列 函数 是 A(X) 
= X mod 7。 设 使 用 线性 探测 方法 解决 冲突 问题 。 插入 结果 得 到 的 散 列 表 表示 在 图 5-19 
中 

如 果 将 23 插入 表 中 , 那么 图 5-20 中 插入 后 的 表 将 有 超过 70% 的 单元 是 满 的 。 因 为 表 填 



































得 过 满 , 所 以 我 们 建立 一 个 新 的 表 。 该 表 大 小 之 所 以 为 17, 是 因为 17 是 原 表 大 小 两 倍 后 的 第 
一 个 素数 。 新 的 散 列 函数 为 A(X) = X mod 17。 扫描 原来 的 表 , 并 将 元 素 6, 15, 23, 24 以 
及 13 插 入 到 新 表 中 。 最 后 得 到 的 表 见 图 5-21. 

0 | 0 6 

1 15 T 15 

2 24:7 2 

3 24 3 WA™ 

4 | 4 

$ SF 

6 13 6f 13 

Er 
图 5-19 ”使 用 线性 探测 插入 13. 15. 图 5-20 使 用 线性 探测 插入 
6, 24 的 升 放 定 址 散 列表 23 后 的 开放 定 址 散 列表 
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整个 操作 就 叫做 再 散 列 (rehashing)。 显 然 这 是 一 种 非常 昂贵 
的 操作 ; 其 运行 时 间 为 O(N), 因为 有 N 个 元 素 要 再 散 列 而 表 的 
大 小 约 为 2N, 不 过 , 由 于 不 是 经 常 发 生 , 因此 实际 效果 根本 没有 
这 么 差 。 特别 是 , 在 最 后 的 再 散 列 之 前 必然 已 经 存在 NM 2 次 
Insert， 当 然 添加 到 每 个 插 和 人 上 的 花费 基本 上 是 一 个 常数 开销 。S 
如 果 这 种 数据 结构 是 程序 的 一 部 分 , 那么 其 效果 是 不 显著 的 。 另 
一 方面 , 如 果 再 散 列 作为 交互 系统 的 一 部 分 运行 , 那么 其 插入 引 
起 再 散 列 的 不 幸 的 用 户 将 会 感到 速度 减 慢 。 

再 散 列 可 以 用 平方 探测 以 多 种 方法 实现 。 一 种 做 法 是 只 要 表 满 
到 一 半 就 再 散 列 。 另 一 种 极端 的 方法 是 只 有 当 插 入 失败 时 才 再 散 
列 。 第 三 种 方法 即 途中 (middle-of-the-road) 策 略 : 当 表 到 达 某 一 个 装 
填 因 子 时 进行 再 散 列 。 由 于 随 着 装填 因子 的 增加 表 的 性 能 的 确 有 下 
We, 因此 , 以 好 的 截止 手段 实现 的 第 三 种 策略 , 可 能 是 最 好 的 策略 。 

再 散 列 把 程序 员 从 表 大 小 的 担心 中 解放 出 来 , 这 一 点 很 重 
要 , 因为 在 复杂 的 程序 中 散 列表 不 能 够 做 得 任意 地 大 。 后 面 的 练 
习 让 你 考查 再 散 列 与 懒惰 删除 联合 使 用 的 情况 。 再 散 列 还 可 以 用 
在 其 他 的 数据 结构 中 。 例 如 ,如 果 第 3 章 队 列 数据 结构 变 满 时 ， 
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图 5-21 在 再 散 列 之 后 














那么 我 们 可 以 声明 一 个 双 倍 大 小 的 数组 ,并 将 每 一 个 成 员 拷贝 过 。 的 开放 定 址 散 列表 
来 ,同时 释放 原来 的 队列 。 
图 5:22 表明 ,再 散 列 的 实现 很 简单 。 
: 
HashTable 
Rehash( HashTable H ) 
1 int i, OldSize; 
Cell *01dCells; 
P irit X 4 OldCells = H-»TheCells; 
J'y OldSize = H-»TableSize; 
/* Get a new, empty table */ 
3 H = InitializeTable( 2 * OldSize ); 
/* Scan through old table, reinserting into new */ 
ft mee for( i = 0; i < OldSize; i++) 
AS if( OldCelis[ i J.Info == Legitimate ) 
/* 6*/ Insert( OldCells( i ].Element, H ); 
/* T. free( OldCells ); 
/* s return Hi 
} 
图 5-22 ”对 开放 定 址 散 列表 的 再 散 列 
5.6 可 扩散 列 


本 章 最 后 的 论题 处 理 数据 量 太 大 以 至 于 装 不 进 主 存 的 情况 。 正 如 我 们 在 第 4 章 看 到 的 ， 


”这 就 是 为 什么 新 表 要 做 成 老 表 两 倍 大 的 原因 。 
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此 时 主要 考虑 的 是 检索 数据 所 需 的 磁盘 存 取 次 数 - 

与 前 面 一 样 , 我 们 假设 在 任 一 时 刻 都 有 N 个 记录 要 存储 ; N 的 值 随时 间 而 变化 - 此 外 ， 
最 多 可 把 M 个 记录 放 和 一 个 磁盘 区 块 本 节 将 设 M = 4- 

如 果 使 用 开放 定 址 散 列 法 或 分 离 链 接 散 列 法 . 那么 主要 的 问题 在 于 , 在 一 次 Find 操作 期 
间 , 冲突 可 能 引起 多 个 区 块 被 考察 , 甚至 对 于 理想 分 布 的 散 列 表 也 在 所 难免 。 不 仅 如 此 , 当 
表 变 得 过 满 的 时 候 , 必须 执行 代价 巨大 的 得 散 列 这 一 步 , 它 需 要 ONKRAN- 

一 种 聪明 的 选择 叫做 可 扩散 列 (extendible hashing), 它 允 许 用 两 次 磁盘 访问 执行 一 次 
Finds 插 人 操作 也 需要 很 少 的 磁盘 访问 

回忆 第 4 章 , B- 树 具有 深度 Ologun NO. 随 着 M 的 增加 ，B- 树 的 深度 降低 - 理论 上 我 
们 可 以 选择 M 如 此 的 大 , 使 得 B 树 的 深度 为 1. 此 时 , 在 第 一 次 以 后 的 任何 Find 都 将 花费 一 1167 
次 中 和 访问 ， 因为 据 推测 根 节点 可 能 存在 Emm A EUM TK binhi n" 


m 可 以 减 缩 那么 我 们 就 将 有 一 个 实际 的 方案 这 正 是 可 扩散 列 使 用 的 策略 
现在 让 我 们 假设 , 我 们 的 数据 由 几 个 6 比特 整数 组 成 - 图 5-23 显示 这 些 数据 的 可 扩散 列 
格式 .“ 树 ”的 根 含有 4 个 指针 , 它们 由 这 些 数据 的 前 两 个 比特 确定 。 每 片 树叶 有 直到 M = 
4 个 元 案 。 碰巧 这 里 每 片 树叶 中 数据 的 前 两 个 比特 都 是 相同 的 ; 这 由 圆 括号 内 的 数 指出 。 为 
了 更 正式 , 用 D 代表 根 所 使 用 的 比特 数 ， 有 时 称 其 为 目录 (directory)。 于 是 , 目录 中 的 项 数 
为 20。dL 为 树叶 二 所 有 元 素 共有 的 最 高 位 的 位 数 。 di 将 依赖 于 特定 的 树叶 , 因此 die D. 
设 欲 插入 关键 字 100100。 它 将 进入 第 三 片 树叶 , 但 是 第 三 片 树叶 已 经 满 了 , 没有 空间 存 
放 它 。 因此 我 们 将 这 片 树叶 分 裂 成 两 片 树叶 , 它们 由 前 三 个 比特 确定 。 这 需要 将 目录 的 大 小 


增加 到 3。 这 些 变化 通过 图 5-24 反映 出 来 。 
w | 010 on ] 100 m we mn | 



















100100 | | 101100] | 111001 











图 523. 可 扩散 列 : 原始 数据 图 5.24 可 扩散 列 : 在 100100 插入 及 目录 分 裂 后 
注意 , 所 有 未 被 分 裂 的 树叶 现在 各 由 两 个 相 邻 目录 项 所 指 、 因此、 虽然 整个 目录 被 重 写 ， 
但 是 其 他 树叶 都 没有 被 实际 访问 。 


如 果 现 在 插入 关键 字 000000, 堵 么 第 -- 片 树叶 就 要 被 分 列 . 生成 心 = 3 的 两 片 树叶 。 
3 D = 3. 故 在 目录 中 所 做 的 惟一 变化 是 000 和 001 指针 的 更 新 。 见 图 5-25。 
这 个 非常 简单 的 方法 提供 了 对 大 型 数据 库 Insert 操作 和 Find 操作 的 快速 存 取 时 间 。 这 


里 , 还 有 一 些 重要 细节 我 们 尚未 考虑 。 
首先 , 有 可 能 当 一 片 树叶 的 元 素 有 多 于 D + d 个 前 导 位 相同 时 需要 多 个 目录 分 裂 。 例 
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án, 从 原先 的 例子 开始 , D = 2, 如 果 插 入 111010, 111011, 并 在 最 后 插入 111100, BAAR 
大 小 必须 增加 到 4 以 区 分 五 个 关键 字 。 这 是 一 个 容易 考虑 到 的 细节 , 但 是 千 万 不 要 忘记 它 。 
其 次 , 存在 重复 关键 字 (duplicate key) 的 可 能 性 ; 若 存在 多 于 M 个 重复 关键 字 , 则 该 算法 根本 
无 效 。 此 时 , 需要 做 出 某 些 其 他 的 安排 。 
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FA 5-25 可 扩散 列 : 在 000000 插入 及 树叶 分 裂 后 


这 些 可 能 性 指出 , 这 些 比特 完全 随机 是 相当 重要 的 , 这 可 以 通过 把 这 些 关键 字 散 列 到 合 
理 长 的 整数 (因而 是 名 字 ) 来 完 

最 后 , 我 们 介绍 可 扩散 列 的 某 些 性 能 , 这 些 性 能 是 经 过 非常 困难 的 分 析 后 得 到 的 。 这 些 
结果 基于 合理 的 假设 : 位 模式 (bit pattern) 是 均匀 分 布 的 。 

树叶 的 期 望 个 数 为 (NMM)logze。 因此 , 平均 树叶 满 的 程度 为 n 2 = 0.69。 这 和 B- 树 是 

- 样 的 ,其实 这 完全 不 奇怪 ,因为 对 于 两 种 数据 结构 , 当 第 (M + 1) 项 被 添加 时 ,一 些 新 的 
节点 就 建立 起 来 。 

更 惊奇 的 结果 是 ,目录 的 期 望 大 小 ( 换 句 话说 即 22) X O CN? * M/M). 如果 M 很 小 ， 
那么 目录 可 能 过 分 地 大 。 在 这 种 情况 下 ,我们 可 以 让 树叶 包含 指向 记录 的 指针 而 不 是 实际 的 
记录 , 这 样 可 以 增加 M 的 值 。 为 了 维持 更 小 的 目录 , 可 以 把 第 二 个 磁盘 访问 添加 到 每 个 Find 
操作 中 去 。 如果 目录 太 大 装 不 进 主 存 , 那么 第 二 个 磁盘 访问 怎么 说 也 还 是 需要 的 。 


总 结 


散 列表 可 以 用 来 以 常数 平均 时 间 实 现 Insert 和 Find 操作 。 当 使 用 散 列表 时 ,注意 诸如 装 
填 因 子 这 样 的 细节 是 特别 重要 的 ,否则 时 间 界 将 不 再 有 效 。 当 关键 字 不 是 短 串 或 整数 时 , 仔 
细 选 择 散 列 函数 也 是 很 重要 的 。 

对 于 分 离 连 接 散 列 法 ， 虽 然 装填 因子 不 很 大 时 性 能 并 不 明显 降低 ,但 装填 因子 还 是 应 该 
接近 于 1。 对 于 开放 定 址 散 列 算法 , 除非 完全 不 可 避免 , 否则 装填 因子 不 应 该 超过 0.5。 如 果 
使 用 线性 探测 ,那么 性 能 随 着 装填 因子 接近 于 1 将 急速 下 降 。 再 散 列 运算 可 以 通过 使 表 增 长 
(或 收缩 ) 来 实现 , 这 样 将 会 保持 合理 的 装填 因子 。 对 于 空间 紧缺 并 且 不 可 能 声明 巨大 散 列表 
的 情况 , 这 是 很 重要 的 。 

二 又 查找 树 也 可 以 用 来 实现 Insert 和 Find 运算 。 虽 然 平 均 时 间 界 为 O(log N), 但 是 二 
又 查找 树 也 支持 那些 需要 序 的 例 程 从 而 更 强大 。 使 用 散 列表 不 可 能 找 出 最 小 元 素 。 除非 准确 
知道 一 个 字符 串 ， 否则 散 列表 也 不 可 能 有 效 地 查找 它 。 二 又 查找 树 可 以 迅速 找到 在 一 定 范围 
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内 的 所 有 项 ， 散 列表 是 做 不 到 的 - 不 仅 如 此 ，O(log N) 这 个 时 间 界 也 不 必 比 O(1) 大 那么 多 . 
这 特别 是 因为 使 用 查找 树 不 需要 乘法 和 除法 
另 一 方面 , 散 列 的 最 坏 情况 一 般 来 自 于 实现 的 缺憾 , 而 有 序 的 输入 却 可 能 使 二 又 树 运行 


得 很 差 。 
有 怀疑 ， 
散 列 


平衡 查找 树 实现 的 代价 相当 高 , 因此 , 如果 不 需要 序 的 信息 以 及 对 输入 是 否 被 排序 
那么 就 应 该 选择 散 列 这 种 数据 结构 。 
有 着 丰富 的 应 用 。 编译 器 使 用 散 列表 跟踪 源 代码 中 声明 的 变量 - 这 种 数据 结构 叫做 


符号 表 (symbol table)。 散 列表 是 这 种 问题 的 理想 应 用 , 因为 只 有 Insert 和 Find 要 运行 . 标识 
符 一 般 都 不 长 ,因此 其 散 列 函数 能 够 迅速 被 算出 - 


散 列 
qux 
有 , 输入 


表 对 于 任何 图 论 问题 都 是 有 用 的 ,在 图 论 问题 中 ,节点 都 有 实际 的 名 字 而 不 是 数 
， 当 输入 被 读 进 的 时 候 ,顶点 则 按照 它们 出 现 的 顺序 从 1 开始 指定 为 一 些 整 数 再 
很 可 能 有 一 组 一 组 依 字母 顺序 排列 的 项 : 例如 , 顶点 可 以 是 计算 机 - 此 时 , 如 果 一 个 





特定 的 计算 中 心 把 它 的 计算 机 列表 成 为 ibm1、ibm2、， ibm3, 等 等 , 那么 , 若 使 用 查找 树 则 在 
效率 方面 可 能 会 有 戏剧 性 的 效果 。 


散 列 


表 的 第 三 种 常见 的 用 途 是 在 为 游戏 编制 的 程序 中 - 当 程序 搜索 游戏 的 不 同 的 行 时 


它 跟踪 通过 计算 基于 位 置 的 散 列 函数 而 看 到 的 一 些 位 置 , 如 果 同 样 的 位 置 再 出 现 , 程序 通常 
通过 简单 移动 变换 来 避免 昂贵 的 重复 计算 . 游戏 程序 的 这 种 一 般 特 点 叫做 变换 表 (transposi 


tion table 


散 询 


个 目录 可 以 被 再 散 列 , 单词 则 可 以 在 常数 时 间 内 被 检测 。 散 列表 很 适合 这 项 


)。 
的 另 一 个 用 途 是 在 线 拼写 检验 程序 - 如 果 错 拼 检测 (与 正确 性 相 比 ) 更 重要 . 那么 整 
工作 ,因为 以 字 








母 顺 序 排列 单词 并 不 重要 ; 而 以 它们 在 文件 中 出 现 的 顺序 显示 出 错误 拼写 当然 是 可 接受 的 


个 算 





我 人 
法 , 并 且 






通过 返回 到 第 1 章 的 字谜 问题 来 结束 这 一 章 。 如 果 使 用 第 1 章 中 描述 的 
假设 最 大 单词 的 大 小 是 某 个 小 常数 , 那么 读 和 人 包含 W 个 单词 的 词典 并 





它 放 人 散 


列表 的 时 间 是 O( W)。 这 个 时 间 很 可 能 由 磁盘 LO. 而 不 是 由 那些 散 列 例 程 起 支配 作用 。 算 法 


的 其 余部 分 将 对 每 一 个 四 元 组 ( 行 , 列 , 方向 , 字符 数 ) 测 试 一 个 单词 是 否 出 现 。 由 于 





次 查 


询 时 间 为 O0), 而 只 存在 常数 个 方向 (8) 和 每 个 单词 的 字符 , 因此 这 一 阶段 的 运行 时 间 为 
OCR* C). 总 的 运行 时 间 是 O(R*C + W), 它 是 对 原始 OCR C W ) 的 明显 的 改进 我们 
还 可 以 做 进一步 的 优化 , 它 能 够 降低 实际 的 运行 时 间 。 这 些 将 在 练习 中 描述 
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5.2 
5:3 


5.4 


给 定 输入 14371，1323, 6173, 4199, 4344, 9679. 1989 AIAK IA ACA CX) = 

X (mod 10), 指出 结果 : 

a. 分 离 链接 散 列 表 。 

b. 使 用 线性 探测 的 开放 定 址 散 列表 。 

c. 使 用 平方 探测 的 开放 定 址 散 列表 

d. 第 二 散 列 函数 为 h2(X) = 7 - (Xmod 7) 的 开放 定 址 散 列 表 - 

指出 将 练习 5.1 中 的 散 列表 再 散 列 的 结果 - 

编写 一 个 程序 , 计算 使 用 线性 探测 、 平方 探 测 以 及 双 散 列 插入 的 长 随机 序列 所 需要 
的 冲突 次 数 。 

在 分 离 链接 散 列 表 中 进行 大 量 的 删除 可 能 造成 表 非常 稀疏 ,浪费 空间 - 在 这 种 情况 


m 
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5.5 


5.6 
5.7 


5.8 


5.9 


«5.10 
5.11 


F, 我 们 可 以 再 散 列 一 个 表 , 大 小 为 原 表 的 一 半 。 设 当 存在 相当 于 表 的 大 小 的 二 倍 
那么 多 的 元 素 的 时 候 , 我 们 再 散 列 到 一 个 更 大 的 表 。 在 再 散 列 到 一 个 更 小 的 表 之 
前 , 该 表 应 该 有 多 么 稀疏 ? 
另 一 种 冲突 解决 策略 是 定义 一 个 序列 F(i) = r 其 中 m= OA mi ray ees rw 
是 前 N 个 整数 的 随机 排列 (每 个 整数 恰好 出 现 一 次 )。 
a. 证 明 , 在 这 种 策略 下 ,如 果 表 不 满 , 那么 冲突 总 能 够 被 解决 。 
b. 能 够 期 望 这 种 策略 会 消除 聚集 吗 ? 
c. 如 果 表 的 装填 因子 是 *, 执行 一 次 插入 的 期 望 时 间 是 多 少 ? 
d. 如 果 表 的 装填 因子 是 A, 执行 一 次 成 功 查找 的 期 望 时 间 是 多 少 ? 
e. 给 出 一 个 有 效 算法 (理论 上 以 及 实际 上 ) 生 成 随机 序列 。 解 释 为 什么 选择 P 的 那 

些 法 则 是 重要 的 ? 
各 种 冲突 解决 方法 的 优点 和 缺点 是 什么 ? 
编写 一 个 程序 , 实现 下 面 的 方案 , 将 大 小 分 别 为 M 和 六 的 两 个 稀 朴 多 项 式 (sparse 
polynomial) P, 和 P; HR. 每 个 多 项 式 代表 一 个 链表 , 链表 的 各 单元 由 系数 、 知 以 
及 Next 指针 组 成 (练习 3.7)。 我 们 用 P» 的 项 乘 以 P 的 每 一 项 , 总 的 运算 次 数 为 
MN。 一 种 方法 是 将 这 些 项 排序 并 合并 同类 项 , 但 是 , 这 需要 排序 MN 个 记录 , 代 
价 可 能 很 高 , 特别 是 在 小 内 存 环境 下 。 另 一 种 方案 , 我 们 可 在 多 项 式 的 项 进行 计算 
时 将 它们 合并 , 然后 将 结果 排序 。 
a. 编写 一 个 程序 实现 第 二 种 方案 。 
b. 如果 输出 多 项 式 大 约 有 O(M + N) 项 , 两 种 方法 的 运行 时 间 各 是 多 少 ? 

一 个 拼写 检查 程序 读 进 一 个 输入 文件 并 显示 出 所 有 在 某 个 在 线 词典 上 查 不 出 的 单 
词 。 设 该 词典 含有 30 000 单词 ,而 文件 很 大 , 以 至 于 算法 只 能 对 该 输入 文件 进行 一 
趟 检查 。 一 种 简单 的 方案 是 将 该 词典 读 人 一 个 散 列表 , 随 着 单词 的 被 读 进而 查找 每 
一 个 单词 。 设 一 个 平均 单词 有 七 个 字符 并 且 能 够 将 长 度 为 上 的 单词 在 人 L + 1 个 
字 节 中 (因此 空间 的 浪费 不 像 考虑 的 那么 多 ), 假设 有 一 个 开放 定 址 表 , 这 需要 多 少 
空间 ? 
如 果 内 存 有 限 并 且 整 个 目录 不 能 装 进 一 个 散 列 表 中 , 那么 我 们 仍然 能 够 得 到 一 个 有 
效 的 算法 , 该 算法 几乎 总 能 正常 工作 。 我们 声明 一 个 位 (bit) 数 组 Table( 其 元 素 初始 
化 均 为 0), 数组 大 小 从 0 到 TableSize - 1。 当 读 进 一 个 单词 时 ,我们 设置 Table 
[Hash(Word)] = 1, 下列 结论 哪个 正确 ? 
a. 如 果 一 个 单词 散 列 到 一 个 其 值 为 0 的 位 置 , 那么 该 单词 不 在 词典 中 。 

b. 如 果 一 个 单词 散 列 到 一 个 其 值 为 1 的 位 置 , 那么 该 单词 在 词典 中 。 

假设 我 们 选择 TableSize = 300 007。 

c. 它 需要 多 少 内 存 ? 

d. 在 该 算法 中 出 现 一 个 错误 的 概率 是 多 少 ? 

e. 典型 的 文档 每 页 500 个 单词 ,可 能 每 页 有 3 个 实际 拼写 错误 该 算法 是 否 可 用 ? 
错 述 一 个 避免 初始 化 散 列表 的 过 程 (以 内 存 消耗 作为 代价 )。 
设 欲 找 出 在 长 输入 串 A Aa... Ay HB Pi1P;.… Pa 的 第 一 一 次 出 现 。 我 们 可 以 通过 散 
列 模 式 串 (pattern string) 得 到 一 个 散 列 值 H, 并 通过 将 该 值 与 从 AIAAk， 
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AsAs. Apis A;3A4...Al .3, 等 等 直到 4Av — 2-1 Ay ass Ay 形成 的 散 列 值 
比较 来 解决 这 个 问题 。 如 果 我 们 得 到 散 列 值 的 一 个 匹配 , 那么 再 一 个 字符 一 个 字符 
地 对 串 进 行 比较 以 检验 这 个 匹配 : 如 果 串 实际 上 确实 匹配 , 那么 返回 其 (在 A 中 的 ) 
位 置 , 而 在 匹配 失败 这 种 不 大 可 能 的 情况 下 继续 进行 
«a. 证 明 如 果 AA c1.. Aa -的 散 列 值 已 知 , 那么 A, ,1A, ,3.. .A .4 的 散 列 值 可 以 
以 常数 时 间 算 出 - 
b. 证 明 运 行 时 间 为 O(k+ N) 加 上 反 驱 假 匹 配 所 耗费 的 时 间 。 
«c. 证 明 假 匹配 的 期 望 次 数 是 微不足道 的 
d. 编写 一 个 程序 实现 该 算法 
oe. 描述 一 个 算法 ,其 最 坏 情形 的 运行 时 间 为 O(k + N) 
of, 描述 一 个 算法 ,其 平均 运行 时 间 为 OCNZR) 

5.12 一 个 BASIC 程序 由 一 系列 按 递 增 顺序 编号 的 语句 组 成 : 控制 是 通过 使 用 goto 或 
gosub 后 加 一 个 语句 序号 实现 的 - 编写 一 个 程序 读 进 合法 的 BASIC 程序 并 给 语句 重 
新 编号 , 使 得 第 一 句 在 序号 F 处 开始 , 并 且 每 一 个 语句 的 序号 比 前 一 语句 高 D: 你 
可 以 假设 N 条 语句 的 一 个 上 限 , 但 是 在 输入 中 , 语句 序号 可 以 大 到 32 比特 长 的 整 
数 。 你 的 程序 必须 以 线性 时 间 运 行 。 

5.13 a. 利用 本 章 末尾 描述 的 算法 实现 字谜 程序 
b. 通过 存储 每 一 个 单词 W 以 及 W 的 所 有 前 级 , 我 们 可 以 大 大 加 快运 行 速 度 。( 如 

果 W 的 一 个 前 级 刚好 是 词典 中 的 一 个 单词 ,那么 就 把 它 作为 实际 的 单词 来 储 
存 。) 虽 然 这 看 起 来 极 大 地 增加 了 散 列表 的 大 小 , 但 实际 上 并 不 是 , 因为 许多 单 
词 有 相同 的 前 组 . 当 以 某 个 特定 的 方向 执行 一 次 扫描 的 时 候 ,如 果 被 查找 的 单词 
作为 前 级 不 在 散 列表 中 , 那么 在 这 个 方向 上 的 扫描 可 以 及 早 终止 , 利用 这 种 思想 
编写 一 个 改进 的 程序 来 解决 字谜 游戏 问题 。 

c. 如 果 我 们 愿意 牺牲 散 列 表 ADT 的 严肃 性 , 那么 我 们 可 以 在 (b) 部 分 使 程序 加 速 ， 
例如 , 如 果 我 们 刚刚 计算 出 ”excel” 的 散 列 函 数 , 那么 我 们 就 不 必 再 从 头 开 始 计 
FE" excel" 的 散 列 函数 。 调 整 散 列 函 数 使 得 它 能 够 利用 前 面 的 计算 。 

d. 在 第 2 章 我 们 建议 使 用 对 分 查找 - 把 使 用 前 级 的 想法 结合 到 你 的 对 分 查找 算法 
中 。 修改 工作 应 该 很 简单 。 哪个 算法 更 快 ? 

5.14 ”指出 将 关键 字 10111101, 00000010, 10011011, 10111110, O1111111、01010001、 
10010110, 00001011, 12001111, 10011110, 11011011, 00101011, 01100001, 
11110000, 01101111 插入 到 一 个 空 的 初始 为 可 扩散 列 数据 结构 中 的 结果 , 其 中 M = 4. 

s.15 ”编写 一 个 程序 实现 可 扩散 列 。 如 果 表 小 到 足 可 装 入 内 存 , 那么 它 的 性 能 与 分 离 链接 
和 开放 定 址 散 列 相 比 如 何 ? 


参考 文献 
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可 以 在 [11] 中 找到 。[14] 是 对 该 课题 极 好 的 综述 ; [15] 包 含 选 择 散 列 函数 的 一 些 建议 以 及 一 
些 要 注意 的 陷阱 。 对 于 本 章 描述 的 所 有 方法 的 精确 分 析 和 模拟 结果 可 以 在 [8] 中 找到 。 
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最 优 的 , 在 这 种 散 列 中 不 存在 聚集 。 

如 果 输 入 关键 字 事 先 已 知 , 那么 完美 散 列 函数 存在 , 它 不 产生 冲突 , 见 [2] 和 [7]。 某 些 
更 复杂 的 散 列 方案 出 现在 [3] 和 [4] 中 , 对 于 这 些 方案 , 最 坏 的 情形 并 不 依赖 于 特定 的 输入 ， 
而 是 依赖 于 算法 所 选择 的 随机 数 。 

可 扩散 列 出 自 [5], 分 析 见于 [6] 和 [19] 。 

实现 练习 5.5 的 一 种 方法 在 [16] 中 描述 。 练 习 5.11(a - d) 取 自 [10]。(e) 部 分 取 自 [12]， 
而 (f) 取 自 [1]。 
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第 6 章 优先 队列 ( 堆 》 


虽然 发 送 到 打印 机 的 作业 一 般 被 放 到 队列 中 . 但 这 未 必 总 是 最 好 的 做 法 - 例如, 可 能 有 
一 项 作业 特别 重要 , 因此 希望 只 要 打印 机 一 有 空闲 就 来 处 理 这 项 作业 。 反 过 来 , 若 在 打印 机 
有 空 时 正好 有 多 个 单 页 的 作业 及 一 项 100 页 的 作业 等 待 打印 . 则 更 合理 的 做 法 也 许 是 最 后 处 
理 长 的 作业 ,尽管 它 不 是 最 后 提交 上 来 的 。( 不 幸 的 是 , 大 多 数 系统 并 不 这 么 做 , 有 时 可 能 特 
别 令 人 烦恼 : ) 

类 似 地 , 在 多 用 户 环境 中 , 操作 系统 调度 程序 必须 决定 在 若 王 进程 中 运行 哪个 进程 。 一 
般 -- 个 进程 只 能 被 允许 运行 一 个 固定 的 时 间 片 - 一 种 算法 是 使 用 一 个 队列 。 开始 时 作业 被 放 
到 队列 的 未 尾 。 调 度 程序 将 反复 提取 队列 中 的 第 一 个 作业 并 运行 它 , 直到 运行 完毕 或 者 该 作 
业 的 时 间 片 用 完 ,并 在 作业 未 被 运行 完毕 时 把 它 放 到 队列 的 末尾 。 这 种 策略 一 般 并 不 太 合 
适 , 因为 一 些 很 短 的 作业 由 于 一 味 等 待 运行 而 要 花费 很 长 的 时 间 去 处 理 。 一 般 说 来 , 短 的 作 
可 能 快 地 结束 ,这 恨 重 要 ， 因 此 在 已 经 被 运行 的 作业 当中 这 些 短 作 业 应 该 拥有 优 
先 权 , 此 外 , 有 些 作业 虽 不 短小 但 也 很 重要 , 也 应 该 拥有 优先 权 。 

这 种 特殊 的 应 用 似乎 需要 一 类 特殊 的 队列 , 我 们 称 之 为 优先 队列 (priority queue)。 特 别 
地 , 我 们 将 讨论 

* 优先 队列 ADT 的 有 效 实现 。 

* 优先 队列 的 使 用 。 

。 优先 队列 的 高 级 实现 

我 们 将 看 到 的 这 类 数据 结构 属于 计算 机 科学 中 最 讲究 的 一 种 


6.1 模型 


优先 队列 是 允许 至 少 下 列 两 种 操作 的 数据 结构 : Insert( 插 入 ), 它 的 工作 是 显而易见 的 ， 
以 及 DeleteMin( 删 除 最 小 者 ), 它 的 工作 是 找 出 、 返 回 和 删除 优先 队列 中 最 小 的 元 素 。Insert 
操作 等 价 于 Enqueue ABA), 而 DeleteMin 则 是 队列 中 Dequeue( 出 队 ) 在 优先 队列 中 的 等 价 操 
ME. DaleteMin 函数 也 变更 它 的 输入 。 软件 工程 界 当前 的 想法 认为 这 不 再 是 一 个 好 的 思路 。 不 
db. 出 于 历史 的 原因 我 们 将 继续 使 用 这 个 函数 ; 许多 程序 设计 员 期 望 DeletreMin 以 这 种 方式 
运行 

如 同 大 多 数 数据 结构 那样 . 有 时 可 能 要 深 加 一 些 操作 , 但 这 些 添加 的 操作 属于 扩展 的 操 
作 , 而 不 属于 图 6-1 所 描述 的 基本 模型 
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图 6-1 优先 队列 的 基本 模型 


除了 操作 系统 外 ,优先 队列 还 有 许多 应 用 ,在 第 7 章 , 我 们 将 看 到 优先 队列 是 如 何 用 于 
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PEREHE UD; ERE AE (greedy algorithm) 的 实现 方面 优先 队列 也 很 重要 , 该 算法 通过 反复 
求 出 最 小 元 来 进行 计算 ; 在 第 9 章 和 第 10 章 我 们 将 看 到 一 些 特殊 的 例子 。 本 章 将 介绍 优先 队 
列 在 离散 事件 模拟 中 的 一 个 应 用 。 


6.2 一 些 简单 的 实现 


有 几 种 明显 的 方法 实现 优先 队列 。 我 们 可 以 使 用 一 个 简单 链表 在 表 头 以 O(1) 执 行 插入 
操作 , 并 遍历 该 链表 以 删除 最 小 元 , 这 又 需要 O(N) 时 间 。 另 一 种 方法 是 , 始终 让 表 保持 排 
序 状态 ; 这 使 得 插 人 代价 高 昂 (O(N ) ) 而 DeleteMin 花费 低廉 (O(1))。 基 于 DeleteMin 的 操 
作 次 数 从 不 多 于 删除 操作 次 数 的 事实 , 因此 前 者 恐怕 是 更 好 的 想法 。 

再 一 种 实现 优先 队列 的 方法 是 使 用 二 又 查找 树 ， 它 对 这 两 种 操作 的 平均 运行 时 间 都 是 
O(log N)。 尽 管 插入 是 随机 的 ， 而 删除 则 不 是 , 但 这 个 结论 还 是 成 立 的 。 记 住 我 们 删除 的 惟 
一 元 素 是 最 小 元 。 反 复 除去 左 子 树 中 的 节点 似乎 损害 树 的 平衡 , 使 得 右 子 树 加 重 。 然 而 , 右 
子 树 是 随机 的 。 在 最 坏 的 情形 , BD DeleteMin 将 左 子 树 删 空 的 情形 下 , 右 子 树 拥有 的 元 素 最 多 
也 就 是 它 应 具有 的 两 倍 。 这 只 是 在 其 期 望 的 深度 上 加 了 一 个 小 常数 。 注意, 通过 使 用 平衡 树 ， 
可 以 把 界 变 成 最 坏 情形 的 界 , 这 将 防止 出 现 坏 的 插入 序列 。 

使 用 查找 树 可 能 有 些 过 分 ,因为 它 支持 许 许多 多 并 不 需要 的 操作 。 我 们 将 要 使 用 的 基本 
的 数据 结构 不 需要 指针 , 它 以 最 坏 情形 时 间 O(log N) 支 持 上 述 两 种 操作 。 插 入 实际 上 将 花 
费 常数 平均 时 间 , 若 无 删 除 干 扰 , 该 结构 的 实现 将 以 线性 时 间 建 立 一 个 具有 N 项 的 优先 队 
列 。 然 后 , 我 们 将 讨论 如 何 实现 优先 队列 以 支持 有 效 的 合并 。 这 个 附加 的 操作 似乎 有 些 复杂 ， 
它 显 然 需 要 使 用 指针 。 


6.3 二 叉 堆 


我 们 将 要 使 用 的 这 种 工具 叫做 二 又 堆 (binary heap), 它 的 使 用 对 于 优先 队列 的 实现 是 如 
此 的 普遍 ,以 至 于 当 堆 (heap) 这 个 词 不 加 修饰 地 使 用 时 一 般 都 是 指 该 数据 结构 的 这 种 实现 。 
在 本 小 节 , 我 们 把 二 叉 堆 只 叫做 堆 。 同 二 叉 查 找 树 一 样 ， 堆 也 有 两 个 性 质 ， 即 结构 性 和 堆 序 
性 。 正如 AVL 树 一 样 , 对 堆 的 一 次 操作 可 能 破坏 这 两 个 性 质 中 的 一 个 , 因此 , 堆 的 操作 必须 
要 到 堆 的 所 有 性 质 都 被 满足 时 才能 终止 。 事 实 上 这 并 不 难 做 到 。 
6.3.1 结构 性 质 

堆 是 一 棵 被 完全 填 满 的 二 又 树 ， 有 可 能 的 例外 是 在 底层 ,底层 上 的 元 素 从 左 到 右 填 人 。 
这 样 的 树 称 为 完全 二 又 树 (complete binary tree). 图 6-2 出 示 了 这 样 一 个 例子 。 

容易 证 明 , 一 棵 高 为 h 的 完全 二 叉 树 





HAA ti- 1 个 节点 。 这 意味 着 ,完全 
二 叉 树 的 高 是 | log NI, 显然 它 是 
O(log N)。 


一 项 重要 的 观察 发 现 , 因为 完全 二 叉 
树 很 有 规律 ， 所 以 它 可 以 用 一 个 数组 表示 
而 不 需要 指针 。 图 6-3 中 的 数组 对 应 图 6-2 
中 的 堆 。 

对 于 数组 中 任 一 位 置 i 上 的 元 素 , 其 图 62 —HEe—XB 
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左 儿子 在 位 置 2; E, 右 儿 子 在 左 儿子 后 的 单元 (2; + 1) 中 , 它 的 父亲 则 在 位 置 Li/ 2J 上 。 A 
Jt. 不 仅 指针 这 里 不 需要 , 而 且 人 遍历 该 树 所 需要 的 操作 也 极 简单 , 在 大 部 分 计算 机 上 上 运行 很 
可 能 非常 快 这 种 实现 方法 的 惟一 问题 在 于 , 最 大 的 堆 大 小 需要 事先 估计 , 但 对 于 典型 的 情 
况 这 并 不 成 问题 。 在 图 6-3 中 , 堆 的 大 小 界限 是 13 SICK. 该 数组 有 一 个 位 置 0; 后 面 将 详 
ABR. 
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图 6-3 完全 二 又 树 的 数组 实现 
因此 ,一 个 堆 数据 结构 将 由 一 个 数组 (不 管 关键 字 是 什么 类 型 )、 一 个 代表 最 大 值 的 整数 
以 及 当前 的 堆 大 小 组 成 。 图 6-4 显示 一 个 典型 的 优先 队列 声明 。 注 意 与 图 3-47 中 栈 声明 的 相 
似 作 ”图 6-4a 创建 一 个 空 堆 - 第 11 行将 在 后 面 解释 。 
r 





wifndef _BinHeap_H 


struct HeapStruct; 
typedef struct HeapStruct *PriorityQueue; 


PriorityQueue Initialize( int MaxElements ); 
void Destroy( PriorityQueue H ); 

void MakeEmpty( PriorityQueue H ); 

void Insert( ElenentType X, PriorityQueue H ); 
ElementType DeleteMin( PriorityQueue H ); 
ElementType FindMin( PriorityQueue H 2: 

int IsEmpty( PriorityQueue H 2; 

int IsFull( PriorityQueue H ); 


wendif 


/* Place in implementation file */ 
struct HeapStruct 
{ 


‘int Capacity: 

int Size; 

ElementType *Elements; 
h 











图 6-4 优先 队列 的 声明 


本 章 我 们 将 始终 把 堆 画 成 树 , 这 意味 着 , 具体 的 实现 将 使 用 简单 的 数组 。 
6.3.2 HE 

使 操作 被 快速 执行 的 性 质 是 堆 序 (heap order) E. 由 于 我 们 想 要 快速 地 找 出 最 小 元 , 因此 
最 小 元 应 该 在 根 上 。 如 果 我 们 考虑 任意 子 树 也 应 该 是 一 个 堆 ,那么 任意 节点 就 应 该 小 于 它 的 
TG Na AF o 

应 用 这 个 逻辑 , 我 们 得 到 堆 序 性 质 。 在 一 个 堆 中 , 对 于 每 一 个 节点 X，X 的 父亲 中 的 关 
键 字 小 于 (或 等 于 )X 中 的 关键 字 , 根 节点 除外 ( 它 没有 父亲 )。 “在 图 6-5 中 左边 的 树 是 一 个 
"n. ERE 右边 的 树 则 不 是 (虚线 表示 堆 有 性 质 被 破坏 )。 我 们 照 惯例 假设 , 关键 字 是 整数 , 虽 


;》 类 似 地 , 我 们 可 以 声明 一 个 (max) 堆 ， 它 使 我 们 能 够 通过 改变 堆 序 性 质 有 效 地 找 出 和 删除 最 大 元 。 因 此 ,优先 队列 
可 以 用 来 找 出 最 大 元 或 最 小 元 , 但 这 需要 提前 决定 
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然 它 们 可 能 任意 复杂 。 





PriorityQueue 
Initialize( int MaxElements ) 
{ 

PriorityQueue H; 


eee A ifC MaxElements < MinPQSize ) 

/* 2 Error( "Priority queue size is too small" ); 
/* 3*4 H = malloc( sizeof( struct HeapStruct ) ); 

/* at ifCH == NULL ) 

nsn FatalError( "Out of space!!!" ); 


/* Allocate the array plus one extra for sentinel */ 
/* 6 H->Elements = malloc( ( MaxElements + 1 ) 


* sizeof( ElementType ) ); 
rM if( H->Elements == NULL ) 
/* 8t FatalError( “Out of space!!!" ); 
/* 9*/ H-»Capacity = MaxElements; 
/*10*/ H->Size = 0; 
/elle/ H->Elements( 0 ] = MinData; 
pa return H; 











图 6-4a 优先 队列 的 声明 





图 6-5 ”两 棵 完全 树 (只 有 左边 的 树 是 堆 ) 


根据 堆 序 性 质 ， 最 小 元 总 可 以 在 根 处 找到 。 因 此 , 我 们 以 常数 时 间 完 成 附加 运算 
FindMine 
6.3.3 ”基本 的 堆 操作 

无 论 从 概念 上 还 是 实际 上 考虑 , 执行 这 两 种 所 要 求 的 操作 都 是 容易 的 ， 只 需要 始终 保持 
堆 序 性 质 。 


Insert( 插 入 ) 
为 将 一 个 元 素 X 插入 到 堆 中 , 我们 在 下 一 个 空闲 位 置 创 建 一 个 空 穴 , 否则 该 堆 将 不 是 完 


全 树 。 如果 义 可 以 放 在 该 空 灾 中 而 并 不 破坏 堆 的 序 ,那么 插入 完成 。 否则 ,我 们 把 空 穴 的 父 
节点 上 的 元 素 移 人 该 空 穴 中 , 这 样 ， 空 穴 就 朝 着 根 的 方向 上 行 一 步 。 继 续 该 过 程 直到 X 能 被 
放 入 空 穴 中 为 止 。 图 6-6 表示 , 为 了 插入 14, 我 们 在 堆 的 下 一 个 可 用 位 置 建立 一 个 空 穴 。 由 
于 将 14 插入 空 穴 破坏 了 堆 序 性 质 , 因此 将 31 移 人 该 空 穴 。 在 图 6-7 中 继续 这 种 策略 , 直到 找 
出 置信 14 的 正确 位 置 。 

这 种 一 般 的 策略 叫做 上 滤 (percolate up); 新 元 素 在 堆 中 上 滤 直 到 找 出 正确 的 位 置 。 使 用 
图 6-8 所 示 的 代码 很 容易 实现 插入 。 
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图 6-7 将 14 插入 到 前 面 的 堆 中 的 其 余 两 步 





/* W-»Element[ 0 ] is a sentinel */ 


int di 
ifC Isfun C8 ) ) 
{ 
Error( "Priority queue is full” ); 


return; 
) 


r 

void 

Insert( FlementType X, PriorityQueue H ) 

i 

for( i = «Size; H->Elements{ i / 2 ] > X; i /= 2) 
H->Elements[ i ] = H->Elements[ i / 2 ]; 

H->Elements[ i ] = X; 





图 6-8 插入 到 一 个 二 叉 堆 的 过 程 


其 实 我 们 本 可 以 使 用 Insert 例 程 通过 反复 实施 交换 操作 直至 建立 正确 的 序 来 实现 上 滤 过 
程 , 可 是 一 次 交换 需要 3 条 赋值 语句 。 如 果 一 个 元 素 上 滤 d 层 , 那么 由 于 交换 而 实施 的 赋值 
的 次 数 就 达到 3d, 而 我 们 这 里 的 方法 却 只 用 d + 1 次 赋值 。 

如 果 要 插入 的 元 素 是 新 的 最 小 值 , 那么 它 将 一 直 被 推 向 顶端 。 这 样 在 某 一 时 刻 ,i 将 是 1， 
我 们 就 需要 令 程序 跳出 while 循环 。 当然 我 们 可 以 用 明确 的 测试 做 到 这 一 点 , 不 过 , 我 们 采用 
的 是 把 一 个 很 小 的 值 放 到 位 置 0 处 以 使 while 循环 得 以 终止 - 这 个 值 必须 保证 小 于 (或 等 于 ) 
堆 中 的 任何 值 ; 我 们 称 之 为 标记 (sentinel)。 这 种 想法 类 似 于 链表 中 头 节点 的 使 用 。 通过 添加 
— ATE (dummy piece of information) , 我 们 避免 了 每 个 循环 都 要 执行 一 次 的 测试 ,从 而 节 
省 了 一 些 时 间 。 

如 果 欲 插入 的 元 素 是 新 的 最 小 元 从 而 一 直上 滤 到 根 处 , 那么 这 种 插入 的 时 间 高 达 
O(log N); 平均 看 来 , 这 种 上 滤 终 止 得 要 早 ; 业已 证 明 , 执行 一 次 插入 平均 需要 2.607 次 比 
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较 , 因此 Insert 将 元 素平 均 上 移 1.607 层 。 
DeleteMin( 删 除 最 小 元 ) 

DeleteMin 以 类 似 于 插入 的 方式 处 理 。 找 出 最 小 元 是 容易 的 ; 困难 的 部 分 是 删除 它 。 当 删 
除 一 个 最 小 元 时 , 在 根 节点 处 产生 了 一 个 空 穴 。 由 于 现在 堆 少 了 一 个 元 素 , 因此 堆 中 最 后 一 
个 元 素 X 必须 移动 到 该 堆 的 某 个 地 方 。 如 果 X 可 以 被 放 到 空 穴 中 , 那么 DeleteMin 完成 。 不 
过 这 一 般 不 太 可 能 ,因此 我 们 将 空 穴 的 两 个 儿子 中 较 小 者 移 人 空 穴 , 这 样 就 把 空 穴 向 下 推 了 
一 层 。 重 复 该 步骤 直到 X 可 以 被 放 人 空 穴 中 。 因此 , 我 们 的 作法 是 将 X 置信 沿 着 从 根 开始 包 
含 最 小 儿子 的 一 条 路 径 上 的 一 个 正确 的 位 置 。 

在 图 6-9 中 左边 的 图 显示 DeleteMin 之 前 的 堆 。 删 除 13 后 , 我 们 必须 要 正确 地 将 31 放 到 
堆 中 。31 不 能 放 在 空 穴 中 , 因为 这 将 破坏 堆 序 性 质 。 于 是 , 我 们 把 较 小 的 儿子 14 BARK, 
同时 空 穴 下 滑 一 层 ( 见 图 6-10)。 重复 该 过 程 , 把 19 置 人 空 穴 , 在 更 下 一 层 上 建立 一 个 新 的 空 
Ro Wea, 再 把 26 BASK, 在 底层 又 建立 一 个 新 的 空 穴 。 最 后 , 我 们 得 以 将 31 置 人 空 穴 中 
(图 6-11)。 这 种 一 般 的 策略 叫做 下 滤 (percolate down)。 在 其 实现 例 程 中 我 们 使 用 类 似 于 在 
Insert 例 程 中 用 过 的 技巧 来 避免 进行 交换 操作 。 


(i3) 





图 6-9 在 根 处 建立 空 穴 
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图 6-10 在 DeleteMin 中 的 接 下 来 的 两 步 
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图 6-11 在 DeleteMin 中 的 最 后 两 步 
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在 堆 的 实现 中 经 常 发 生 的 错误 是 当 堆 中 存在 偶数 个 元 素 的 时 候 , AER 
有 一 个 儿子 的 情况 。 我 们 必须 保证 假设 节点 不 总 有 两 个 儿子 ， 因 此 这 就 涉及 到 一 个 附加 的 测 
试 , 在 图 6-12 描述 的 程序 中 , 我 们 已 在 第 S 行进 行 了 这 种 测试 。 一 种 极其 巧妙 的 解决 方法 是 
始终 保证 你 的 算法 把 每 一 个 节点 都 看 成 有 两 个 儿子 。 为 了 实施 这 种 解法 ， 当 堆 的 大 小 为 偶数 
时 ,在 每 个 下 滤 开始 时 ， 可 将 其 值 大 于 堆 中 任何 元 素 的 标记 放 到 堆 的 终端 后 面 的 位 置 上 。 你 
在 深思 熟 虑 以 后 再 这 么 做 ,而 且 必 须要 判断 你 是 否 确实 要 使 用 这 种 技巧 。 虽然 这 不 再 需 
要 测试 右 儿 子 的 存在 性 , 但 是 你 还 是 需要 测试 何 时 到 达 底 层 , 因为 对 每 一 片 树叶 算法 将 需要 
一 个 标记 。 











ElementType 
DeleteMin( PriorityQueue H ) 
{ 

int i, Child; 

ElementType MinElement, LastElement: 


Pr? ifC IsEmptyC H ) ) 
{ 
DES Error( "Priority queue is empty" ); 
z 3*7 return H-»Elements( 0 J; 
上 
ftat MinElement = H-»Elements[ 1 ]; 
7 547 LastElement = H->Elements{ H->Size-- J; 


/* 6*/ for( i = 1; i * 2 <= H->Size; i = Child ) 
{ 


/* Find smaller child */ 

Child = i * 2; 

if( Child != H->Size && H->Elements{ Child + 1 ] 
< H->Elements[ Child ] ) 





Childes: 


/* Percolate one level */ 


/1*/ if( Last£lement > H->Elements{ Child ] ) 
/*12*/ H-»Elements( i ] = H->Elements{ Child ]; 
else 
/*13*/ break; 
} 
/*14*/ H->Elements[ i ] = LastElement; 
/5*/ return MinElement; 











图 6-12 在 二 叉 堆 中 执行 DeleteMin 的 函数 


这 种 算法 的 最 坏 情形 运行 时 间 为 O(log N)。 平均 而 言 , 被 放 到 根 处 的 元 素 几乎 下 滤 到 
堆 的 底层 ( 它 所 来 自 的 那 层 ), 因此 平均 运行 时 间 为 O(log N)。 
6.3.4 其 他 的 堆 操作 

注意 , 虽然 求 最 小 值 操作 可 以 在 常数 时 间 完 成 , 但 是 , 按照 求 最 小 元 设计 的 堆 (也 称 作 最 
小 值 堆 (min)heap) 在 求 最 大 元 方面 却 无 任何 帮助 - 事实 上 , 一 个 堆 所 蕴涵 的 关于 序 的 信息 很 
少 , 因此 , 车 不 对 整个 堆 进行 线性 搜索 , 是 没有 办 法 找 出 任何 特定 的 关键 字 的 。 为 说 明 这 一 
点 , 考虑 图 6-13 所 示 的 大 型 堆 结构 (具体 元 素 没有 人 慰 出 ), 我 们 看 到 , 关于 最 大 值 的 元 素 所 知 
道 的 惟一 信息 是 : 该 元 素 在 树叶 上 , 但 是 , 半数 的 元 素 位 于 树叶 上 , 因此 该 信息 是 没什么 用 
的 . 由 于 这 个 原因 , 如 果 重 要 的 是 要 知道 元 素 都 在 什么 地 方 , 那么 除 堆 之 外 , 还 必须 用 到 庄 
如 散 列表 等 某 些 其 他 的 数据 结构 。( 回 忆 : 该 模型 并 不 允许 查看 堆 内 部 。) 

如 果 我 们 假设 通过 某 种 其 他 方法 得 知 每 一 个 元 素 的 位 置 , 那么 有 几 种 其 他 的 操作 的 开销 
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将 变 小 。 下 述 三 种 这 样 的 操作 均 以 对 数 最 坏 情形 时 间 运 行 。 
DecreaseKey( 降 低 关 键 字 的 值 ) 

DecreaseKey(P, A, 万 ) 操 作 降 低 在 位 置 P 处 的 关键 字 的 值 , 降 值 的 幅度 为 正 的 量 A。 由 
于 这 可 能 破坏 堆 的 序 , 因此 必须 通过 上 滤 对 堆 进行 调整 。 该 操作 对 系统 管理 程序 是 有 用 的 : 
系统 管理 程序 能 够 使 它们 的 程序 以 最 高 的 优先 级 来 运行 。 


fl | 


InereaseKey( 增 加 关键 字 的 值 ) 

IncreaseKey(P, A, 万 ) 操 作 增加 在 位 置 P 处 的 关键 字 的 值 , 增值 的 幅度 为 正 的 量 A。 这 
可 以 用 下 滤 来 完成 。 许 多 调度 程序 自动 地 降低 正在 过 多 地 消耗 CPU 时 间 的 进程 的 优先 级 。 
Delete 删除 ) 

Delete(P，H) 操 作 删 除 堆 中 位 置 P 上 的 节点 。 这 通过 首先 执行 DecreaseKey(P，c， 
H), 然后 再 执行 DeleteMin( 已) 来 完成 。 当 一 个 进程 被 用 户 中 止 (而 不 是 正常 终止 ) 时 ， 它 必 
须 从 优先 队列 中 除去 。 

BuildHeap( 构 建 堆 ) 

BuildHeap( H)384E48 N 个 关键 字 作为 输入 并 把 它们 放 入 空 堆 中 。 显然 , 这 可 以 使 用 N 
个 相继 的 Insert( 插 入 ) 操 作 来 完成 。 由 于 每 个 Insert 将 花费 O(1) 平 均 时 间 以 及 O(log N) 的 
最 坏 情形 时 间 , 因此 该 算法 的 总 的 运行 时 间 则 是 O( NN) 平 均 时 间 而 不 是 O(N log N) 最 坏 情 
形 时 间 。 由 于 这 是 一 种 特殊 的 指令 , 没有 其 他 操作 干扰 ,而 且 我 们 已 经 知道 该 指令 能 够 以 线 
性 平均 时 间 实 施 , 因此 , 期 望 能 够 保证 线性 时 间 界 的 考虑 是 合乎 情理 的 。 

-- 般 的 算法 是 将 N 个 关键 字 以 任意 顺序 放 人 树 中 ,保持 结构 特性 。 此 时 ， 如 果 
percolateDown( i) JS i FUE, 那么 执行 图 6-14 中 的 该 算法 创建 一 棵 具有 堆 序 的 树 (heap- 
ordered tree) o 











for( i =N/ 2; i > 0; i-- ) 
PercolateDown( i ); 











图 6-14 BuildHeap 的 简要 代码 


图 6-15 中 的 第 一 棵 树 是 无 序 树 。 从 图 6-15 到 图 6-18 中 其 余 七 棵 树 表示 出 七 次 Percolate- 
Down 中 每 一 个 的 执行 结果 。 每 条 虚线 对 应 两 次 比较 : 一 次 是 找 出 较 小 的 儿子 节点 ， 另 一 个 是 
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将 较 小 的 儿子 与 该 节点 比较 。 注意 , 在 整个 算法 中 只 有 10 条 虚线 (可 能 已 经 存在 第 11 条 一 一 
在 哪里 )， 对 应 20 次 比较 - 





6-18 Z: 在 PercolateDown(2) 之 后 ; 右 : 在 PercolateDown(1) 之 后 


为 了 确定 BuildHeap 的 运行 时 间 的 界 , 我 们 必须 确定 虚线 的 条 数 的 界 。 这 可 以 通过 计算 堆 中 
所 有 节点 的 高 度 的 和 来 得 到 , 它 是 虚线 的 最 大 条 数 。 现在 我 们 想 要 说 明 的 是 : 该 和 为 O(N)。 

定理 6.1 

dá 2011 — 1 个 节点 高 为 p 的 理想 二 又 树 (perfect binary tree) 的 节点 的 高 度 的 和 为 

ort 1 = (b+ Ie 

证 明 : 

容易 看 出 ,该 树 由 高 度 bp 上 的 1 个 节点 、 高 度 h - 1 上 的 2 个 节点 、 MRED - 2 上 的 22 个 
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节点 以 及 一 般 地 在 高 度 b — i KR 个 节点 组 成 。 则 所 有 节点 的 高 度 的 和 为 
b. 
S= M2b- i) 


=h + 2(h -1)*4( -2) + 85-3) «166 -4) +... +211) (6.1) 
两 边 乘 以 2 得 到 方程 
2S = 2b + 4(h -1)+80-2)+16 — 3) +... + 2P(1) (6.2) 
将 这 两 个 方程 相 减 得 到 方程 (6.3)。 我 们 发 现 , 非常 数 项 差不多 都 消去 了 , 例如 , 2b 一 2h 
- D =2,4 -1) - 40h - 2) = 4, 等 等 。 方程 (6.2) 的 最 后 一 项 2 在 方程 (6.1) 中 不 出 
现 ; 因此 , 它 出 现在 方程 (6.3) 中 。 方程 (6.1) 中 的 第 一 项 bp 在 方程 (6.2) 中 不 出 现 ; 因此 ,hb 
出 现在 方程 (6.3) 中 。 我 们 得 到 
S=-pb+2+4+8+...+2-1+20= (20r-1) -+1) (6.3) 
这 就 证 明了 该 定理 。 
完全 树 (complete tree) 不 是 理想 二 又 树 (perfectly binary tree), 但 是 我 们 得 到 的 结果 却 是 
- 棵 完全 树 的 节点 高 度 的 和 的 上 界 。 由 于 一 棵 完全 树 节点 数 在 2 和 2 *! 之 间 , 因此 该 定理 意 
味 着 这 个 和 是 O(N), 其 中 N 是 节点 的 个 数 。 
虽然 我 们 得 到 的 结果 对 证 明 BuildHeap 是 线性 的 而 言 是 充分 的 , 但 是 高 度 的 和 的 界 却 不 
是 尽 可 能 的 强 。 对 于 具有 N = 2% 个 节点 的 完全 树 , 我 们 得 到 的 界 大 致 是 2N。 由 归纳 法 可 以 
证 明 , 高 度 的 和 是 N - b(N), 其 中 5(N) 是 在 N 的 二 进 制 表示 法 中 1 的 个 数 。 


6.4 优先 队列 的 应 用 


我 们 已 经 提 到 优先 队列 如 何 用 于 操作 系统 的 设计 中 。 在 第 9 章 , 我 们 将 看 到 优先 队列 如 何 有 
效 地 用 于 几 个 图 论 算法 的 实现 中 。 此 处 , 我 们 将 介绍 如 何 应 用 优先 队列 来 得 到 两 个 问题 的 解答 。 
6.4.1 选择 问题 

我 们 将 要 考察 的 第 一 个 问题 是 来 自 第 1 章 的 选择 问题 。 当 时 的 输入 是 N 个 元 素 以 及 一 
个 整数 &， 这 N 个 元 素 的 集 可 以 是 全 序 的 。 该 选择 问题 是 要 找 出 第 个 最 大 的 元 素 。 

在 第 1 章 中 给 出 了 两 个 算法 , 但 是 它们 都 不 是 很 高 效 的 算法 。 第 一 个 算法 我 们 将 称 其 为 
1A, 是 把 这 些 元 素 读 人 数组 并 将 它们 排序 , 返回 适当 的 元 素 。 假设 使 用 的 是 简单 的 排序 算 
ik. 则 运行 时 间 为 O(N?)。 另 一 个 算法 叫做 LB, 是 将 个 元 素 读 人 一 个 数组 并 将 其 排序 。 
这 些 元 素 中 的 最 小 者 在 第 上 个 位 置 上 。 我 们 一 个 一 个 地 处 理 其 余 的 元 素 。 当 一 个 元 素 开始 被 
处 理 时 , 它 先 与 数组 中 第 k 个 元 素 比较 ,如 果 该 元 素 大 , 那么 将 第 个 元 素 除去 , 而 这 个 新 
元 素 则 被 放 在 其 余 上 - 1 个 元 素 间 正 确 的 位 置 上 。 当 算法 结束 时 , 第 上 个 位 置 上 的 元 素 就 是 
问题 的 解答 。 该 方法 的 运行 时 间 为 O(N*k)。( 为 什么 ? ) 如 果 =[N/2], 那么 这 两 种 算法 
都 是 O(N2)。 注意 , 对 于 任意 的 站, 我 们 可 以 求解 对 称 的 问题 : 找 出 第 (N -k + 1) 个 最 小 
的 元 素 , 从 而 = 『N/2] 实 际 上 是 这 两 个 算法 的 最 困难 的 情况 。 这 刚好 也 是 最 有 趣 的 情形 ， 
因为 的 这 个 值 称 为 中 位 数 (median)。 

我 们 在 这 里 给 出 两 个 算法 , TER = 『N/21 的 极端 情形 下 它们 均 以 O(N log N) 运 行 , 这 
是 明显 的 改进 。 


算法 6A 
为 了 简单 起 见 ,假设 我 们 只 考虑 找 出 第 个 最 小 的 元 素 。 该 算法 很 简单 。 我 们 将 N 个 元 
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素 读 人 一 个 数组 . 然后 对 该 数组 应 用 BuildHeap 算法 。 最 后 , PUT k 次 DeleteMin 操作 。 从 该 
堆 最 后 提取 的 元 素 就 是 我 们 的 答案 - 显然 . 通过 改变 堆 序 性 质 , 我 们 就 可 以 求解 原始 的 问题 : 
RER k 个 最 大 的 元 素 。 

这 个 算法 的 正确 性 应 该 是 显然 的 . 如 果 使 用 BuildHeap, 构造 堆 的 最 坏 情 形 用 时 是 
OLN), 而 每 次 DeleteMin 用 时 O(log N) 由 于 有 次 DelereMin. 因此 我 们 得 到 总 的 运行 时 
HX OCN + klog N). WR k = O(N /og N), 那么 运行 时 间 取决 于 BuildHeap BRE, BI 
O(N). 对 于 大 的 & 值 ,运行 时 间 为 O(k log N)- WR k =[N/2], 那么 运行 时 间 则 为 
Q(N log N)。 

TERE, 如 果 我 们 对 & = N 运行 该 程序 并 在 元 素 离开 堆 时 记录 它们 的 值 , 那么 我 们 实际 
上 已 经 对 输入 文件 以 时 间 O(N log N) 作 了 排序 。 在 第 7 章 , 我 们 将 细 化 该 想法 , 得 到 一 种 快 
速 的 排序 算法 ,叫做 堆 排序 (heapsort) 
算法 6B 

关于 第 2 个 算法 , 我 们 回 到 原始 问题 , 找 出 第 上 个 最 大 的 元 素 , 我 们 使 用 算法 1B 的 思 
路 在 任 一 时 刻 我 们 都 将 维持 & 个 最 大 元 素 的 集合 5, 在 前 人 个 元 素 读 人 以 后 ， 当 再 读 人 一 
个 新 的 元 素 时 ,该 元 素 将 与 第 k 个 最 大 元 素 进行 比较 , 记 这 第 上 个 最 大 的 元 素 为 Si。 注意 ， 
S, 是 S 中 最 小 的 元 素 。 如 果 新 的 元 素 更 大 . 那么 用 新 元 素 代替 S 中 的 Set- 此 时 ，S 将 有 一 个 
新 的 最 小 元 素 , 它 可 能 是 新 添加 进 的 元 素 , 也 可 能 不 是 。 在 输入 终了 时 , 我 们 找到 S 中 最 小 
X 将 其 返回 , 它 就 是 答案 。 

这 基本 上 与 第 1 章 中 描述 的 算法 相同 。 不 过 , 这 里 我 们 使 用 一 个 堆 来 实现 S. 前 上 个 元 
素 通过 调用 一 次 BuildHeap 以 总 时 间 O(k) 被 置信 堆 中 。 处 理 每 个 其 余 的 元 素 的 时 间 为 0(1) 
(检测 元 素 是 否 进 入 5S) 再 加 上 时 间 OUlog A)( 在 必要 时 删除 St 并 插入 新 元 素 ), 因此 , 总 的 时 间 
JE Olke + (N - A)logA) = O(N log 4) - 该 算法 也 给 出 找 出 中 位 数 的 时 间 界 OCN log N) 

在 第 7 章 , 我 们 将 看 到 如 何以 平均 时 间 O(N) 解 决 这 个 问题 。 在 第 10 章 , 我 们 将 看 到 一 
个 以 O(N) 最 坏 情 形 时 间 求 解 该 问题 的 算法 , 嚼 然 不 切实 际 但 却 很 精致 。 

6.4.2 事件 模拟 

在 3.4.3 节 我 们 描述 了 一 个 重要 的 排队 问题 。 在 那里 我 们 有 一 个 系统 ， 比 如 银行 , 顾客 
们 到 达 并 站 队 等 在 那里 直到 个 出 纳 员 中 有 一 个 腾 出 手 来 。 顾客 的 到 达 情 况 由 概率 分 布 卫 数 
控制 ,服务 时 间 ( 一 旦 出 纳 员 腾 出 时 间 用 于 服务 的 时 间 量 ) 也 是 如 此 。 我 们 的 兴趣 在 于 一 位 顾 
客 平均 必须 要 等 多 久 或 所 排 的 队伍 可 能 有 多 长 这 类 统计 问题 

对 于 某 些 概率 分 布 以 及 A 的 一 些 值 , 答案 都 可 以 精确 地 计算 出 来 。 然而 随 着 WEK, 











可 以 确定 为 保证 合理 地 通畅 的 服务 需要 多 少 出 纳 员 。 

模拟 由 处 理 中 的 事件 组 成 。 这 里 的 两 个 事件 是 (a) 一 位 顾客 的 到 达 ， 和 (b) 一 位 顾客 的 离 
去 ,从 而 腾 出 一 名 出 纳 员 。 

我 们 可 以 使 用 概率 函数 来 生成 一 个 输入 流 , 它 由 每 位 顾客 的 到 达 时 间 和 服务 时 间 的 序 偶 
组 成 ,并 通过 到 达 时 间 排 序 .我 们 不 必 使 用 一 天 中 的 准确 时 间 , 而 是 使 用 单位 时 间 基 , 称 之 
为 一 个 滴答 (tick)。 

进行 这 种 模拟 的 一 个 方法 是 启动 处 在 0 滴答 处 的 一 台 模拟 钟表 - 我 们 让 钟表 一 次 走 一 个 
WA, 同时 查看 是 否 有 -个 事件 发 生 。 如 果 有 , 那么 我 们 处 理 这 个 ( 些 ) 事 件 ， 搜集 统计 资料 - 
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当 没有 顾客 留 在 输入 流 中 上 且 所 有 的 出 纳 员 都 闲 着 的 时 候 , 模拟 结束 。 

这 种 模拟 策略 的 问题 是 , 它 的 运行 时 间 不 依赖 顾客 数 或 事件 数 (每 位 顾客 有 两 个 事件 ) ， 
但 是 却 依赖 滴答 数 ,而 后 者 实际 又 不 是 输入 的 一 部 分 。 为 了 看 清 为 什么 问题 在 于 此 , 假设 将 
钟表 的 单位 改 成 滴答 的 千 分 之 一 (millitick) 并 将 输入 中 的 所 有 时 间 乘 以 1 000, 则 结果 将 是 : 
模拟 用 时 长 了 1 000 fi! 

避免 这 种 问题 的 关键 是 在 每 一 个 阶段 让 钟表 直接 走 到 下 一 个 事件 时 间 。 从 概念 上 看 这 是 
容易 做 到 的 。 在 任 一 时 刻 , 可 能 出 现 的 下 一 事件 或 者 是 (a) 输 入 文件 中 下 一 顾客 的 到 达 , 或 者 
是 (b) 在 一 名 出 纳 员 处 一 位 顾客 离开 。 由 于 可 以 得 知 将 发 生 事件 的 所 有 时 间 , 因此 我 们 只 需 
找 出 最 近 的 要 发 生 的 事件 并 处 理 这 个 事件 。 

如 果 事 件 是 离开 , 那么 处 理 过程 包 括 搜集 离开 的 顾客 的 统计 资料 以 及 检验 队伍 (队列 ) 看 
是 否 还 有 另外 的 顾客 在 等 待 。 如 果 有 ,那么 我 们 加 上 这 位 顾客 , 处 理 所 需要 的 统计 资料 , 计 
算 该 顾客 将 要 离开 的 时 间 , 并 将 离开 事件 加 到 等 待 发 生 的 事件 集中 去 。 

如 果 事 件 是 到 达 , 那么 我 们 检查 闲 着 的 出 纳 员 。 如 果 没 有 , 那么 我 们 把 该 到 达 事件 放 到 
队伍 (队列 ) 中 去 ; 否则 , 我 们 分 配 顾客 一 个 出 纳 员 , 计算 顾客 的 离开 时 间 , 并 将 离开 事件 加 
到 等 待 发 生 的 事件 集中 去 。 

在 等 待 的 顾客 队伍 可 以 实现 为 一 个 队列 。 由 于 我 们 需要 找到 最 近 的 将 要 发 生 的 事件 , 合 
适 的 办 法 是 将 等 待 发 生 的 离开 的 集合 编 人 一 个 优先 队列 中 。 下 一 事件 是 下 一 个 到 达 或 下 一 个 
离开 (哪个 发 生 早 就 是 哪个 ); 它们 都 容易 达到 。 

为 模拟 编写 例 程 很 简单 , 但 是 可 能 很 耗费 时 间 。 如 果 有 C 个 顾客 (因此 有 2C 个 事件 ) 和 
个 出 纳 员 , 那么 模拟 的 运行 时 间 将 会 是 O(C log(k + 1)9, 因为 计算 和 处 理 每 个 事件 花 
费 O(log H), EP H = k + 1 为 堆 的 大 小 。 


6.5 dS 


二 叉 堆 是 如 此 简单 ,以 至 于 它们 几乎 总 是 用 在 需要 优先 队列 的 时 候 。d- 堆 是 二 叉 堆 的 简 
单 推广 , 它 恰 像 一 个 二 叉 堆 ， 只 是 所 有 的 节点 都 有 d 个 儿子 (因此 , 二 叉 堆 是 2- 堆 )。 

图 6-19 表示 的 是 一 个 3- 堆 。 注 意 , 4- 堆 要 比 二 叉 堆 浅 得 多 , 它 将 Insert 操作 的 运行 时 间 
改进 为 O(logs N)。 然而, 对 于 大 的 4，DeleteMin 操作 费时 得 多 ,因为 虽然 树 浅 了 , 但 是 d 
个 儿子 中 的 最 小 者 是 必须 要 找 出 的 , 如 使 用 标准 的 算法 ,这 会 花费 4 - 1 次 比较 ,于 是 将 此 
操作 的 用 时 提高 到 O(d logy N)。 如 果 d 是 常数 , 那么 当然 两 种 操作 的 运行 时 间 都 是 
O(log N)。 虽然 仍然 可 以 使 用 一 个 数组 , 但 是 , 现在 找 出 儿子 和 父亲 的 乘法 和 除法 都 有 个 因 
Fd, 除非 d 2 的 赛 ,否则 将 会 大 大 地 增加 运行 时 间 ， 因 为 我 们 再 不 能 通过 二 进 制 移 位 来 
实现 除法 了 。d- 堆 在 理论 上 很 有 趣 , 因为 存在 许多 算法 ， 其 插 和 人 次 数 比 DeleteMin 的 次 数 多 
很 多 (因此 理论 上 的 加 速 是 可 能 的 )。 当 优先 队列 太 大 不 能 完全 装 入 主 存 的 时 候 , d- 堆 也 是 很 
有 用 的 。 在 这 种 情况 下 ，d- 堆 能 够 以 与 B- 树 大 致 相同 的 方式 发 挥 作用 。 最 后 有 证 据 显示 ， 
在 实践 中 4- 堆 可 以 胜 过 二 叉 堆 。 

除 不 能 执行 Find 外 , 堆 的 实现 的 最 明显 的 缺点 是 :将 两 个 堆 合并 成 一 个 堆 是 困难 的 操 


O 我 们 用 OCC log(k+1)) 而 不 用 O(C log) 以 避免 k= 1 情形 的 混乱 。 
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作 。 这 种 附加 的 操作 叫做 Merge AH). 存在 许多 实现 堆 的 方法 使 得 Merge 操作 的 运行 时 间 
是 O(log N)。 现在 我 们 就 来 讨论 三 种 复杂 程度 不 一 的 数据 结构 ,它们 都 有 效 地 支持 Merge HR 
作 。 我 们 将 把 复杂 的 分 析 推 迟到 第 11 章 讨论 。 


(3) (3) 
bw COO CHO 
HW 9 
图 6-19 一 个 d- 堆 


6.6 左 式 堆 


设计 一 种 堆 结构 像 二 又 堆 那样 高 效 地 支持 合并 操作 ( 即 以 O(N) 时 间 处 理 一 次 Merge) ili 
且 只 使 用 一 个 数组 似乎 很 困难 。 原 因 在 于 , 合并 似乎 需要 把 一 个 数组 拷贝 到 另 一 个 数组 中 
去 , 对 于 相同 大 小 的 堆 这 将 花费 时 间 B( N)。 正 因为 如 此 , 所 有 支持 高 效 合并 的 高 级 数据 结 
构 都 需要 使 用 指针 。 实践 中 , 可 能 我 们 预计 这 将 使 得 所 有 其 他 的 操作 变 慢 ; 处 理 指针 一 般 比 
用 2 作 乘法 和 除法 更 耗费 时 间 。 

像 二 叉 堆 那 样 ， 左 式 堆 (leftist heap) 也 具有 结构 特性 和 有 序 性 - 事实 上 ， 和 所 有 使 用 的 堆 
一 样 , 左 式 堆 具有 相同 的 堆 序 性 质 , 该 性 质 我 们 已 经 看 到 过 。 不仅 如 此 , 左 式 堆 也 是 二 又 树 。 
左 式 堆 和 二 又 树 间 惟一 的 区 别 是 : 左 式 堆 不 是 理想 平衡 的 (perfectly balanced)， 而 实际 上 是 趋 
向 于 非常 不 平衡 。 

6.6.1 左 式 堆 的 性 质 

我 们 把 任 一 节点 X 的 零 路 径 长 (null path length, NPL) NA (X JELHA X 到 一 个 没有 
两 个 儿子 的 节点 的 最 短路 径 的 长 。 因 此 , 具有 0 个 或 1 个 儿子 的 节点 的 Nel 为 0, 而 
NpL(NULL) = - 1。 在 图 6-20 的 树 中 , 零 路 径 长 标记 在 侍 的 节点 内 。 








图 6-20 两 棵 树 的 零 路 径 长 ,只 有 左边 的 树 是 左 式 树 


注意 , 任 一 节点 的 零 路 径 长 比 它 的 诸 儿 子 节点 的 零 路 径 长 的 最 小 值 多 1。 这 个 结论 也 适 
用 少 于 两 个 儿子 的 节点 , 因为 NULL 的 零 路 径 长 是 - 1。 

左 式 堆 性 质 是 : 对 于 堆 中 的 每 一 个 节点 X, 左 儿子 的 零 路 径 长 至 少 与 右 儿子 的 零 路 径 长 一 
BK. 图 6-20 中 只 有 一 棵 树 ( 即 左边 的 那 棵 树 ) 满 足 该 性 质 。 这 个 性 质 实际 上 超出 了 它 确 保 树 不 
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平衡 的 要 求 , 因为 它 显然 更 偏重 于 使 树 向 左 增加 深度 。 确实 有 可 能 存在 由 左 节点 形成 的 长 路 径 
构成 的 树 (而 且 实际 上 更 便于 合并 操作 ) 一 一 因此 , 我 们 就 有 了 去 式 堆 (leftist heap) 这 个 名 称 。 

因为 左 式 堆 趋向 于 加 深 左 路 径 , 所 以 右 路 径 应 该 短 。 事实 上 , 沿 左 式 堆 的 右 路 径 确实 是 
该 堆 中 最 短 的 路 径 。 否则 , 就 会 存在 一 条 路 径 通过 某 个 节点 X 并 取得 左 儿子 。 此 时 X 则 破坏 
了 左 式 堆 的 性 质 。 

定理 6.2 

在 右 路 径 上 有 7 个 节点 的 左 式 树 必然 至 少 有 27 一 1 个 节点 。 

WERA: 

数学 归纳 法 证 明 。 如 果 r = 1, 则 必然 至 少 存在 一 个 树 节点 。 另外 , 设 定理 对 1、2、.…、 
-个 节点 成 立 。 考 虑 在 右 路 径 上 有 r+ 1 个 节点 的 左 式 树 。 此 时 , 根 具 有 在 右 路 径 上 含 ”个 
节点 的 右 子 树 ,以 及 在 右 路 径 上 至 少 含 r 个 节点 的 左 子 树 (否则 它 就 不 是 左 式 树 )。 对 这 两 条 
子 树 应 用 归纳 假设 , 得 知 在 每 棵 子 树 上 最 少 有 27 - 1 个 节点 , 再 加 上 根 节点 , 于 是 在 该 树 上 
至 少 有 271 - 1 个 节点 , 定理 得 证 。 

从 这 个 定理 立刻 得 到 ，N 个 节点 的 左 式 树 有 一 条 右 路 径 最 多 含有 Llog (N+1)J 个 节点 。 对 
左 式 堆 操作 的 一 般 思路 是 将 所 有 的 工作 放 到 右 路 径 上 进行 ， 它 保证 树 深 短 。 惟 一 的 棘手 部 分 在 
F, 对 右 路 径 的 Insert 和 Merge 可 能 会 破坏 左 式 堆 性 质 。 事实 上 , 恢复 该 性 质 是 非常 容易 的 
6.6.2 左 式 堆 的 操作 

对 左 式 堆 的 基本 操作 是 合并 。 注意 , 插入 只 是 合并 的 特殊 情形 , 因为 我 们 可 以 把 插入 看 
成 是 单 节点 堆 与 一 个 大 的 堆 的 Merge 首先 , 我 们 给 出 一 个 简单 的 递归 解法 , 然后 介绍 如 何 
能 够 非 递归 地 施行 该 解法 。 我们 的 输入 是 两 个 左 式 堆 Hi 和 Ho, 见 图 6-21。 读 者 应 该 验证 ， 
这 些 堆 确实 是 左 式 堆 。 注意 , 最 小 的 元 素 在 根 处 。 除 数据 、 左 指针 和 右 指针 所 用 空间 外 ,每 个 
单元 还 要 有 一 个 指示 零 路 径 长 的 项 。 








图 6-21 两 个 左 式 堆 H, MH 


如 果 这 两 个 堆 中 有 一 个 堆 是 空 的 , 那么 我 们 可 以 返回 另外 一 个 堆 。 否 则 ,为 了 合并 这 两 
ASME, 我们 需要 比较 它们 的 根 。 首先, 我 们 将 具有 大 的 根 值 的 堆 与 具有 小 的 根 值 的 堆 的 右 子 
堆 合 并 。 在 本 例 中 , 我 们 递归 地 将 Ho 与 Hi 中 根 在 8 处 的 右 子 堆 合并 , 得 到 图 622 中 的 堆 。 

由 于 这 棵 树 是 递归 地 形成 的 , 而 我 们 尚未 对 算法 描述 完毕 , 因此, 我 们 现在 还 不 能 说 明 
该 堆 是 如 何 得 到 的 。 不 过 , 有 理由 假设 , 最 后 的 结果 是 一 棵 左 式 堆 ， 因为 它 是 通过 递归 的 步 
又 得 到 的 。 这 很 像 归 纳 法 证 明 中 的 归纳 假设 。 既然 我 们 能 够 处 理 基 准 情形 (发 生 在 一 栋 树 是 
空 的 时 候 )， 当 然 可 以 假设 ,只 要 我 们 能 够 完成 合并 那么 递归 步骤 就 是 成 立 的 ; 这 是 递归 法 则 
3, 我 们 在 第 1 章 中 讨论 过 它 。 现 在 , 我 们 让 这 个 新 的 堆 成 为 Hi 的 根 的 右 儿 子 ( 见 图 623). 





优先 队列 ( 礁 ) 








图 6-23 Hi 接 上 图 6-22 中 的 左 式 堆 作为 右 儿子 的 结果 


虽然 最 后 得 到 的 堆 满 足 堆 序 性 质 , 但 是 , 它 不 是 左 式 堆 , 因为 根 的 左 子 树 的 零 路 径 攻 为 1 
而 根 的 右 子 树 的 零 路 径 长 为 2。 因 此, 左 式 的 性 质 在 根 处 被 破坏 。 不 过 ,容易 看 到 , 树 的 其 余部 
分 必然 是 左 式 的 。 由 于 递归 步 又 , 根 的 右 子 树 是 左 式 的 。 根 的 左 子 树 没有 变化 ,当然 它 也 必然 还 
是 左 式 的 。 这 样 一 来 , 我 们 只 要 对 根 进行 调整 就 可 以 了 。 使 整个 树 是 左 式 的 做 法 如 下 : 只 要 交换 
根 的 左 儿子 和 右 儿 子 (图 6-24) 并 更 新 零 路 径 长 , 就 完成 了 Merge, 新 的 零 路 径 长 是 新 的 右 儿 子 
的 零 路 径 长 加 1, EE, 如 果 零 路 径 长 不 更 新 , 那么 所 有 的 零 路 径 长 都 将 是 0, 而 堆 将 不 是 左 式 
的 , 只 是 随机 的 。 在 这 种 情况 下 , 算法 仍然 成 立 , 但 是 , 我 们 宣称 的 时 间 界 将 不 再 有 效 。 





图 6-24 交换 Hi 的 根 的 儿子 得 到 的 结果 
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将 算法 的 描述 直接 翻译 成 代码 。 除 了 增加 Npl( 零 路 径 长 ) 域 外 , 算法 中 的 类 型 定义 (图 
6-25) 与 二 叉 树 是 相同 的 。 我 们 在 第 4 章 已 经 看 到 ， 当 一 个 元 素 被 插入 到 一 棵 空 的 二 叉 树 时 ， 
需要 改变 指向 根 的 指针 。 最 容易 的 实现 方法 是 让 插入 例 程 返回 指向 新 树 的 指针 。 不 幸 的 是 ， 
这 将 使 得 左 式 堆 的 Insert 与 二 叉 堆 的 Insert 不 兼容 (后 者 什么 也 不 返回 )。 图 6-25 的 最 后 一 行 
描述 了 摆脱 这 种 窘境 的 一 种 方法 。 返回 新 树 的 左 式 堆 插入 例 程 将 记 为 Insertl; E Insert 将 完 
成 一 次 与 二 又 堆 兼容 的 插 和 操作。 这 种 使 用 宏 的 方法 可 能 不 是 最 好 和 最 安全 的 做 法 ,但 另 一 
种 方法 即 把 PriorityQueue 声明 为 指向 TreeNode 的 指针 , 则 使 程序 充满 了 额外 的 星 号 。2 





wifndef _LeftHeap_H 


struct TreeNode; 
‘typedef struct TreeNode *PriorityQueue; 


/* Minimal set of priority queue operations */ 

/* Note that nodes will be shared among several */ 
/* leftist heaps after a merge; the user must */ 
/* make sure to not use the old leftist heaps */ 


PriorityQueue Initialize( void ); 

ElementType FindMin( PriorityQueue H ); 

int IsEmpty( PriorityQueue H ); 

PriorityQueue Merge( PriorityQueue Hl, PriorityQueue H2 ); 


define Insert( X, H ) ( H = Inserti( (X ), H) ) 
/* DeleteMin macro is left as an exercise */ 


PriorityQueue Insertl( ElementType X, PriorityQueue H ); 
PriorityQueue DeleteMinl( PriorityQueue H ); 


wendif 


/* Place in implementation file */ 
struct TreeNode 
1 
ElementType Element; 
PriorityQueue Left; 
PriorityQueue Right; 
int Npl; 











图 6-25 左 式 堆 类 型 声明 


因为 Insert 是 一 个 宏 并 且 将 被 预 处 理 程序 替换 ,所 以 任何 调用 Insert 的 例 程 必须 能 够 见 
到 宏 定 义 。 图 6-25 为 一 个 典型 的 头 文件 , 将 宏 声明 放 在 那里 是 惟一 合适 的 办 法 。 后 面 将 会 看 
到 , DeleteMin 也 需要 写成 宏 的 形式 。 
合并 操作 的 例 程 (图 6-26) 是 一 个 被 设计 成 除去 一 些 特殊 情形 并 保证 Hi 有 较 小 根 的 驱动 
例 程 。 实 际 的 合并 操作 在 Mergel 中 进行 (图 6-27)。 注意， 原始 的 两 个 左 式 堆 绝 不 要 再 使 用 ; 
它们 本 身 的 变化 将 影响 合并 操作 的 结果 。 
执行 合并 的 时 间 与 右 路 径 的 长 的 和 成 正比 ， 因为 在 递归 调用 期 间 对 每 一 个 被 访问 的 节点 
执行 的 是 常数 工作 量 。 因 此 , 我 们 得 到 合并 两 个 左 式 堆 的 时 间 界 为 O(log N)。 我 们 也 可 以 分 
两 趟 来 非 递归 地 实施 该 操作 。 在 第 一 赵 ， 我 们 通过 合并 两 个 堆 的 右 路 径 建立 一 棵 新 的 树 。 为 
此 , 我 们 以 排序 的 顺序 安排 了 和 Ho 右 路 径 上 的 节点 ,保持 它们 各 自 的 左 儿子 不 变 。 在 我 们 
inn lene 
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的 例子 中 , 新 的 右 路 径 是 3, 6, 7, 8, 18, 而 最 后 得 到 的 树 表示 在 图 628 中 。 第 二 趟 构成 堆 ， 
儿子 的 交换 工作 在 左 式 堆 性 质 被 破坏 的 那些 节点 上 进行 。 在 图 6-28 中 , 在 节点 7 和 3 有 一 次 
交换 , 并 得 到 与 前 面相 同 的 树 。 非 递归 的 做 法 更 容易 理解 ,但 编程 困难 。 我 们 留 给 读者 去 证 
明 : 递归 过 程 和 非 递归 过 程 的 结果 是 由 同 的 





PriorityQueue | 
Merge( PriorityQueue Hl, PriorityQueue H2 ) | 
{ 
| ml/ if( HL == NULL ) | 
EA return H2; 
2 3*7 if( H2 == NULL ) 
E return Hl; 
Ju suy if( H1->Element < H2-»Element ) 
/* 6 return Mergel( Hl, H2 ); 
else 
wry return Mergel( H2, H1 ); 


! 








图 6-26 合并 左 式 堆 的 驱动 例 程 





static PriorityQueue 
Mergel( PriorityQueue Hl, PriorityQueue H2 ) 
{ 


yey if( HL->Left == NULL ) /* Single node */ 
Pa Hl->Left = H2; /* HL->Right is already NULL, 
Hl->Np] is already 0 */ 
else 
i | 
je 3 Hl->Right = Merge( Hl-»Right, H2 ); 
/* tj if( Hl-»Left-»Npl < Hl-»Right-»Npl ) 
Jn SwapChildren( H1 ); 
/* 6n Hl-»Npl = Hl-»Right-»Npl + 1; 
) 
Pry return Hl; 











图 6-27 合并 左 式 堆 的 实际 例 程 





图 6-28 合并 H 和 H 的 右 路 径 的 结果 


上 面 提 到 , 我 们 可 以 通过 把 被 插入 项 看 成 单 节点 堆 并 执行 一 次 Merge 来 完成 插入 。 为 了 
执行 DeleteMin, 只 要 除 掉 根 而 得 到 两 个 堆 , 然后 再 将 这 两 个 堆 合 并 。 因 此 ， 执行 一 次 
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DeleteMin 的 时 间 为 O(log N)。 这 两 个 例 程 在 图 6-29 和 图 6-30 中 给 出 。DeleteMin 可 以 写成 
E, 它 调用 DeleteMinl 和 FindMin。 我 们 把 它 留 作 读者 的 一 道 练习 题 。 





PriorityQueue 
Inserti( ElementType X, PriorityQueue H ) 


PriorityQueue SingleNode; 


fti" SingleNode = malloc( sizeof( struct TreeNode ) ); 
Pz if( SingleNode == NULL ) 
"PI FatalError( "Out of space!!!" ); 

else 

f 
fen SingleNode->Element = X; SingleNode-»Npl = 0; 
fts SingleNode-»Left = SingleNode->Right = NULL; 
/* 6*/ H = Merge( SingleNode, H ); 

} 
way return H; 








图 6-29 左 式 堆 的 插 人 例 程 





/* DeleteMinl returns the new tree; */ 
/* To get the minimum, use FindMin */ 
/* This is for convenience */ 


PriorityQueue 
DeleteMini( PriorityQueue H ) 


PriorityQueue LeftHeap, RightHeap; 


yout] if( IsEmptyC H ) ) 
/* i © Error( "Priority queue is empty" ); 
LEA return Hi 
) 
Jt atn LeftHeap = H->Left; 
/ea s RightHeap = H->Right; 
7* 6" free( H ); 
frg return Merge( LeftHeap, RightHeap ); 





} 








图 6-30 ZIEH DeleteMin 例 程 


最 后 , 我 们 可 以 通过 建立 一 个 二 又 堆 (显然 用 指针 实现 ) 而 以 O(N) 时 间 建 立 一 个 左 式 
堆 。 尽 管 二 又 堆 显 然 是 左 式 的 , 但 它 未 必 是 最 佳 解决 方案 , 因为 我 们 得 到 的 堆 可 能 是 最 差 的 
左 式 堆 。 不 仅 如 此 , 以 相反 的 层 序 遍 历 树 也 不 像 用 指针 那么 容易 。BuildHeap 的 效果 可 以 通过 
递归 地 建立 左右 子 树 然后 将 根 下 滤 而 得 到 。 练习 中 包括 另外 一 个 解决 方案 。 


6.7 FHE 

SHR (skew heap) 是 左 式 堆 的 自 调节 形式 , 实现 起 来 极其 简单 。 斜 堆 和 左 式 堆 间 的 关系 类 
似 于 伸展 树 和 AVL 树 间 的 关系 。 斜 堆 是 具有 堆 序 的 二 又 树 , 但 是 不 存在 对 树 的 结构 限制 。 不 
同 于 左 式 堆 , 关于 任意 节点 的 零 路 径 长 的 任何 信息 都 不 保留 。 斜 堆 的 右 路 径 在 任何 时 刻 都 可 
以 任意 长 , 因此 , 所 有 操作 的 最 坏 情形 运行 时 间 均 为 O(N)。 然 而 , 正如 同 伸展 树 一 样 , 可 以 
证 明 ( 见 第 11 章 ) 任 意 M 次 连续 操作 , 总 的 最 坏 情形 运行 时 间 是 O(M log N)。 因 此 , EHE 
次 操作 的 摊 还 时 间 (amortized cost) 为 O(log N)。 
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与 左 式 堆 相 同 , 斜 堆 的 基本 操作 也 是 合并 操作 这 个 Merge 例 程 还 是 递归 的 , 我们 执行 
与 以 前 完全 相同 的 操作 , 但 有 一 个 例外 , 即 : 对 于 左 式 堆 , 我 们 查看 是 否 左 儿子 和 右 儿子 满 
足 左 式 堆 堆 序 性 质 并 交换 那些 不 满足 该 性 质 者 ; 但 对 于 斜 堆 , 除了 这 些 右 路 径 上 所 有 节点 的 
最 大 者 不 交换 它们 的 左右 儿子 外 ,交换 是 无 条 件 的 : 这 个 例外 就 是 在 自然 通 归 实现 时 所 发 生 
的 现象 , 因此 它 实际 上 根本 不 是 特殊 情形 。 不 仅 如 此 , 证 明 时 间 界 也 是 不 必要 的 , 但 是 , 由 于 
该 节点 肯定 没有 右 儿 子 , 因此 执行 交换 是 轴 乔 的 。( 在 我 们 的 例子 中 , 该 节点 没有 儿子 ,因此 
我 们 不 必 为 此 担心 。) 另 外 , 仍 设 我 们 的 输入 是 与 前 面相 同 的 两 个 堆 ， 见 图 6-31。 


ig (28) (9) (8 
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图 6-31 两 个 斜 堆 Hi 和 H: 
如 果 我 们 递归 地 将 Hy 与 Hy 中 根 在 8 处 的 子 堆 合并 , 那么 我 们 将 得 到 图 6-32 中 的 堆 。 
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图 6-32 HH, H 的 右 子 堆 合并 的 结果 


这 也 是 递归 地 完成 的 , 因此 , 根据 递归 的 第 三 个 法 则 ( 见 1.3 节 ) 我 们 不 必 担心 它 是 如 何 
得 到 的 。 这 个 堆 碰巧 是 左 式 的 ,不 过 不 能 保证 情况 总 是 如 此 。 我 们 使 这 个 堆 成 为 Hy 的 新 的 
FILE, 而 Hy 的 老 的 左 儿子 变 成 了 新 的 右 儿 子 ( 见 图 6-33)。 
整个 树 是 左 式 的 , 但 是 容易 看 到 这 并 不 总 是 成 立 的 : 将 15 插入 到 新 堆 中 将 破坏 左 式 性 质 。 
我 们 也 可 像 左 式 堆 那样 非 递归 地 进行 所 有 的 操作 : 合并 右 路 径 , 除 最 后 的 节点 外 交换 右 
路 径 上 每 个 节点 的 左 儿子 和 右 儿子 。 经 过 几 个 例子 之 后 ,事情 变 得 很 清楚 : 由 于 除去 右 路 径 
于 最 后 的 节点 外 的 所 有 节点 都 将 它们 的 儿子 交换 ,因此 最 终 效果 是 它 变 成 了 新 的 左 路 径 ( 参 
见 前 面 的 例子 以 便 使 你 自己 确信 )。 这 使 得 合并 两 个 斜 堆 非 HHA. O 








-这 与 递归 实现 不 完全 一 样 (但 豚 从 相同 的 时 则 办 ) 如 果 一 个 堆 的 厂 路 径 用 完 而 导致 右 路 径 合并 终止 , 而 我 们 只 交 
换 终止 的 那 一 点 上 面 的 右 路 径 上 的 节点 的 儿子 ， 那么 我 们 将 得 到 与 递归 做 法 相同 的 结果 。 
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图 6-33 AHEHE H, MH 的 结果 


斜 堆 的 实现 留 作 练习 。 注意 , 因为 右 路 径 可 能 很 长 ,所 以 递归 实现 可 能 由 于 缺乏 栈 空间 
而 失败 ,虽然 在 其 他 方面 性 能 是 可 接受 的 。 斜 堆 有 一 个 优点 ， 即 不 需要 附加 的 空间 来 保留 路 
径 长 以 及 不 需要 测试 确定 何 时 交换 儿子 。 精 确 确定 左 式 堆 和 斜 堆 的 期 望 的 右 路 径 长 是 一 个 尚 
未 解决 的 问题 (后 者 无 疑 更 为 困难 )。 这 样 的 比较 将 更 容易 确定 平衡 信息 的 轻微 遗失 是 否 可 由 
缺少 测试 来 补偿 。 
6.8 二 项 队列 

虽然 左 式 堆 和 斜 堆 每 次 操作 花费 O(log N) 时 间 , 这 有 效 地 支持 了 合并 、 插 入 和 
DeleteMin, 但 还 是 有 改进 的 余地 ,因为 我 们 知道 , 二 叉 堆 以 每 次 操作 花费 常数 平均 时 间 支 持 
插入 。 二 项 队列 支持 所 有 这 三 种 操作 ,每 次 操作 的 最 坏 情形 运行 时 间 为 O(log N), 而 插入 操 
作 平 均 花费 常数 时 间 。 
6.8.1 二 项 队列 结构 

二 项 队列 (binomial queue) 不 同 于 我 们 已 经 看 到 的 所 有 优先 队列 的 实现 之 处 在 于 , 一 个 二 项 
队列 不 是 一 棵 堆 序 的 树 ,而 是 堆 序 树 的 集合 , 称 为 森林 (forest)。 堆 序 树 中 的 每 一 棵 都 是 有 约束 
的 形式 , 叫做 二 项 树 (binomial wee, 后 面 将 看 到 该 名 称 的 由 来 是 显然 的 )。 每 一 个 高 度 上 至 多 存 
在 一 棵 二 项 树 。 高 度 为 0 的 二 项 树 是 一 棵 单 节 点 树 ; 高 度 为 的 二 项 树 BL 通过 将 一 棵 二 项 树 
B, _ 1 附 接 到 另 一 棵 二 项 树 B, — ;的 根 上 而 构成 。 图 6-34 BAT Bo, By, By, Bs 以 及 Bao 
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图 6-34 二 项 树 Bo. Bi. Bi. B3 UR By 
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从 图 中 看 到 , 二 项 树 B, MAUL A Bo, By, ..., Be- ! 的 根 组 成 。 高 度 为 上 的 二 项 
树 恰好 有 2! 个 节点 ,而 在 深度 d 处 的 节点 数 是 二 项 系数 | ”| 如 果 我 们 把 堆 序 施加 到 二 项 树 


上 并 允许 任意 高 度 上 最 多 有 一 棵 二 项 全 ,那么 我 们 能 够 用 二 项 树 的 集合 惟一 地 表示 任意 大 小 
的 优先 队列 。 例如 , 大 小 为 13 的 优先 队列 可 以 用 森林 Bs, Bo, Bo 表示 。 我 们 可 以 把 这 种 表 
示 写 成 1101, 它 不 仅 以 二 进 制 表示 了 13, 而且 也 表示 这 样 的 事实 : 在 上 述 表 示 中 , B3，B:， 
By HBL, 而 B, 则 没有 。 

作为 一 个 例子 , 六 个 元 素 的 优先 队列 可 以 表示 为 图 6-35 中 的 形状 。 [203] 
6.8. 二 项 队列 操作 

此 时 ,最 小 元 可 以 通过 搜索 所 有 的 树 的 根来 找 出 。 由 于 最 多 有 log N 棵 不 同 的 树 ,因此 
最 小 元 可 以 时 间 O(log N) 找 到 。 另外, 如 果 我 们 记 住 当 最 小 元 在 其 他 操作 期 间 变 化 时 更 新 
它 , 那么 我 们 也 可 保留 最 小 元 的 信息 并 以 O(1) 时 间 执 行 该 操作 。 

合并 两 个 二 项 队列 的 操作 在 概念 上 是 容易 的 操作 , 我 们 将 通过 例子 描述 。 考 虑 两 个 二 项 
队列 Hy 和 Hy, 它们 分 别 具 有 六 个 和 七 个 元 素 , 见 图 6-36。 

合并 操作 基本 上 是 通过 将 两 个 队列 加 到 一 起 来 完成 的 - Hy 是 新 的 二 项 队列 。 由 于 H, 
没有 高 度 为 0 的 二 项 树 而 H; 有 , 因此 我 们 就 用 Ho 中 高 度 为 0 的 二 项 树 作为 Hs 的 一 部 分 。 
然后 , 我 们 将 两 个 高 度 为 1 的 二 项 树 相 加 。 由 于 H 和 H 都 有 高 度 为 1 的 二 项 树 , 因此 我 们 
可 以 将 它们 合并 , 让 大 的 根 成 为 小 的 根 的 子 树 ， 从 而 建立 高 度 为 2 的 二 项 树 ， 见 图 6-37。 这 
样 ，H; 将 没有 高 度 为 1 的 二 项 树 。 现在 存在 三 标高 度 为 2 的 二 项 树 , BH, 和 H 原 有 的 两 
个 二 项 树 以 及 由 上 一 步 形成 的 一 棵 二 项 树 。 我 们 将 一 棵 高 度 为 2 的 二 项 树 放 到 H 中 , 并 合 
并 其 他 两 个 二 项 树 , 得 到 一 棵 高 度 为 3 的 二 项 树 。 由 于 H 和 H 都 没有 高 度 为 3 的 二 项 树 ， 
因此 该 二 项 树 就 成 为 Hs 的 一 部 分 ， 人 最 后 得 到 的 二 项 队列 如 图 6-38 所 示 。 


图 6-35 具有 六 个 元 素 的 636 ”两 个 二 项 队列 Hy 和 H 图 6-37 Hi 和 Hi 中 
二 项 树 Hl 两 棵 B, 树 合并 
3 
Hus 





Sa a 


图 6-38 二 项 队列 Hy: 合并 H M H 的 结果 
由 于 几乎 使 用 任意 合理 的 实现 方法 合并 两 棵 二 项 树 均 花 费 常数 时 间 ， 而 总 共存 在 
O(log N) 棵 二 项 树 , 因此 合并 在 最 坏 情形 下 花费 时 间 O(log N)。 为 使 该 操作 更 高 效 , 我 们 
需要 将 这 些 树 放 到 按照 高 度 排序 的 二 项 队列 中 ， 当然 这 做 起 来 是 件 简单 的 事情 。 
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插入 实际 上 就 是 特殊 情形 的 合并 , 我 们 只 要 创建 一 标 单 节点 树 并 执行 一 次 合并 。 这 种 操 
作 的 最 坏 情形 运行 时 间 也 是 O(log N)。 更 准确 地 说 , 如果 元 素 将 要 插入 的 那个 优先 队列 中 
不 存在 的 最 小 的 二 项 树 是 B, 那么 运行 时 间 与 i+1 成 正比 。 例如 ，H3( 图 6-38) 缺 少 高 度 为 
1 的 二 项 树 , 因此 插入 将 进行 两 步 而 终止 。 由 于 二 项 队列 中 的 每 棵 树 出 现 的 概率 均 为 1/ 2, 
于 是 我 们 期 望 插入 在 两 步 后 终止 , 因此 , 平均 时 间 是 常数 。 不仅 如 此 , 分 析 将 指出 , 对 一 个 初 
始 为 空 的 二 项 队列 进行 N 次 Insert 将 花费 的 最 坏 情形 时 间 为 O(N). 事实 上 , RAN - 1 
次 比较 就 有 可 能 进行 该 操作 ; 我 们 把 它 留 作 练 习 。 

作为 一 个 例子 , 我 们 用 图 6-39 到 图 6-45 演示 通过 依 序 插入 1 到 7 来 构成 一 个 二 项 队列 。 
4 的 插 人 展现 一 种 坏 的 情形 。 我们 把 4 与 Bo 合并 , 得 到 一 棵 新 的 高 度 为 1 的 树 。 然 后 将 该 树 
与 B, 合并 , 得 到 一 棵 高 度 为 2 的 树 , 它 是 新 的 优先 队列 。 我 们 把 这 些 算 作 三 步 (两 次 树 合并 
加 上 终止 情形 )。 在 插入 7 以 后 的 下 一 次 插入 又 是 一 个 坏 情 形 , 需要 三 次 树 合并 操作 。 
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图 6-39 在 1 插入 之 后 图 6-40 在 2 插入 之 后 图 6-41 在 3 插入 之 后 ”图 6-42 在 4 插入 之 后 
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图 6-43 在 5 插入 之 后 图 6-44 在 6 插入 之 后 图 6-45 在 7 插入 之 后 


DeleteMin 可 以 通过 首先 找 出 一 棵 具有 最 小 根 的 二 项 树 来 完成 。 令 该 树 为 B， 并 令 原始 
的 优先 队列 为 Ho 我 们 从 H 的 树 的 森林 中 除去 二 项 树 B, 形成 新 的 二 项 树 队列 H'。 再 除去 
B, 的 根 , 得 到 一 些 二 项 树 By, By, o, By - 1, 它们 共同 形成 优先 队列 H'。 合 并 HMH, 
操作 结束 。 

作为 例子 , 设 对 Hs 执行 一 次 DeleteMin, 它 在 图 6-46 中 表示 。 最 小 的 根 是 12, 因此 我 们 
得 到 图 6-47 和 图 6-48 中 的 两 个 优先 队列 HR". A 五 和 于 得 到 的 二 项 队列 是 最 后 的 
答案 , 见 图 6-49 所 示 。 


n, 





图 6-46 二 项 队列 Hs 
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图 6-47 二 项 队列 H', 包含 除 Bs 外 Hs 中 所 有 的 二 项 树 图 6-48 二 项 队列 H: 除去 12 后 的 Bs 
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图 6-49 DeleteMin( H;3) 的 结果 


为 了 分 析 , 首先 注意 , DeleteMin 操作 将 原 二 项 队列 一 分 为 二 。 找 出 含有 最 小 元 素 的 树 并 
创建 队列 H AH HERE O(log N)。 合并 这 两 个 队列 又 花费 O(log N) 时 间 , 因此 , 整个 
DeleteMin 操作 花费 时 间 O(log N)- 

6.8.3 二 项 队列 的 实现 

DeleteMin 操作 需要 快速 找 出 根 的 所 有 子 树 的 能 力 , 因此 , 需要 一 般 树 的 标准 表示 方法 : 
每 个 节点 的 儿子 都 存在 一 个 链表 中 ,而 且 每 个 节点 都 有 一 个 指向 它 的 第 一 个 儿子 (如 果 有 的 
话 ) 的 指针 。 该 操 作 还 要 求 : 诸 儿子 按照 它们 的 子 树 的 大 小 排序 。 我 们 也 需要 保证 能 够 很 容易 
地 合并 两 棵 树 。 当 两 棵 树 被 合并 时 ,其 中 的 一 棵 树 作为 儿子 被 加 到 另 一 棵 树 上 。 由 于 这 棵 新 
树 将 是 最 大 的 子 树 , 因此 ,以 大 小 递减 的 方式 保持 这 些 子 树 是 有 意义 的 。 只 有 这 时 , 我们 才 
能 够 有 效 地 合并 两 棵 二 项 树 从 而 合并 两 个 二 项 队列 。 二 项 队列 将 是 二 项 树 的 数组 。 

总 之 : 二 项 树 的 每 一 个 节点 将 包含 数据 、 第 一 个 儿子 以 及 右 兄弟 。 二 项 树 中 的 诸 儿子 以 
递减 次 序 排列 。 

图 6-51 解释 如 何 表示 图 6-50 中 的 二 项 队列 。 图 6-52 显示 二 项 树 中 的 节点 的 类 型 声明 。 


PC (33) 12 
B © ON 


图 6-50 画作 森林 的 二 项 队列 Hs 
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图 6-51 二 项 队列 H 的 表示 方式 























为 了 合并 两 个 二 项 队列 ,我 们 需要 一 个 例 程 来 合并 两 个 同样 大 小 的 二 项 树 。 图 6-53 指出 
两 个 二 项 树 合并 时 指针 是 如 何 变化 的 - 合并 二 项 树 的 程序 很 简单 , 见 图 6-54。 

现在 我 们 介绍 Merge 例 程 的 简单 实现 。 该 例 程 将 H 和 H 合并 ， 把 合并 结果 放 入 HI 
中 , 并 清空 Ho. 在 任意 时 刻 我 们 在 处 理 的 是 秩 为 i 的 那些 树 。T! 和 T A E Hy 和 中 
的 树 , 而 Carry 是 从 上 一 步 得 来 的 树 (可 能 是 NULL). 如果 T, fefe, 那么 !! Ty 1,8 
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WW!) T, 是 0, 对 其 余 的 树 也 是 如 此 。 对 于 秩 为 i 以 及 秩 为 i + 1 的 Carry 树 所 得 到 的 结果 形 
成 的 树 , 其 形成 过 程 依赖 于 8 种 可 能 情形 中 的 每 一 种 。 该 过 程 从 秩 0 开始 到 产生 二 项 队列 的 
最 后 的 秩 。 程 序 见 图 6-55。 

二 项 队列 的 DeleteMin 例 程 在 图 6-56 中 给 出 。 

当 受 到 影响 的 元 素 的 位 置 已 知 时 , 我 们 可 以 将 二 项 队列 扩展 到 支持 二 叉 堆 所 允许 的 某 些 
非 标准 的 操作 , 诸如 DecreaseKey 和 Delete. DecreaseKey 是 一 次 PercolateUp， 如 果 我 们 将 一 
个 域 加 到 每 个 节点 上 指向 其 父亲 , 那么 PercolateUp 可 以 时 间 O(log N) 完 成 。 一 次 任意 的 
Delete 可 以 通过 DecreaseKey 和 DeleteMin 以 时 间 O(log 六) 结合 而 完成 。 





typedef struct BinNode *Position; 
typedef struct Collection *BinQueve; 


struct BinNode 

{ 
ElementType Element; 
Position — LeftChild; 
Position ^ NextSibling; 

h 


struct Collection 
{ 


‘int CurrentSize; 
BinTree TheTrees[ MaxTrees ]; 
K 








图 6-52 二 项 队列 类 型 声明 
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图 6-53 合并 两 棵 二 项 树 





/* Return the result of merging equal-sized Tl and T2 */ 


BinTree 
CombineTrees( BinTree Tl, BinTree T2 ) 
{ 
if ( T1->Element > T2->Element ) 
return CombineTrees( T2, T1); 
T2-»NextSibling = T1-»LeftChild; 
Ti-»LeftChild = T2; 
return T1; 








图 6-54 合并 同样 大 小 的 两 棵 二 项 树 的 例 程 
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/* Merge two binomial queues */ 
/* Not optimized for early termination */ 
/* Hl contains merged result */ 


BinQueue 
Merge( BinQueue Hl, BinQueue H2 ) 
{ 


BinTree T1, T2, Carry = NULL; 
int i, j; 


if( Hl-»CurrentSize + H2->CurrentSize > Capacity ) 
Error( "Merge would exceed capacity" ); 


Hl-»CurrentSize += H2-»CurrentSize; 
for(i = 0, j = 1; j <= Hl-CurrentSize; i++, j *= 2) 





Tl = Hl-»TheTrees[ i ]; T2 = H2->TheTrees[ i J; 











switch( HITI + 2 * 1172 + 4 * Carry ) 
{ 
case 0: /* No trees */ 
case 1; /* Only Hl 
brea 
case 2: /* Only H2 */ 
Hl->TheTrees[ i ] = T2; 
H2->TheTrees[ i J = NULL: 


break; 
case 4: /* Only Carry 
Hl-»TheTrees[ i ] 
Carry = NULL; 
break; 
case 3: /* Hl and H2 */ 
Carry = CombineTrees( T1, T2 ); 
Ml-»Thelrees( i ) = H2-»TheTrees[ i ] = NULL; 
break; 
case 5: /* H and Carry */ 
Carry = ConbineTrees( T1, Carry ); 
Hi->TheTrees{ i) = NULL; 
break; 
case 6: /* H2 and Carry */ 
Carry = CombineTrees( T2, Carry ); 
H2->TheTrees[ i ) = NULL; 
break; 
case 7; /* All three */ 
H1->TheTrees[ i ] = Carry: 
Carry = CombineTrees( Tl, T2 ); 
H2-»TheTrees( i ] = NULL; 
break; 





! 


) 
return Hl; 








图 6-55 合并 两 个 优先 队列 的 例 程 
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ElementType 
DeleteMin( BinQueue H ) 
1 
int i, j; 
int MinTree; /* The tree with the minimum item */ 


BinQueue DeletedQueue; 
Position DeletedTree, OldRoot; 
ElementType MinItem; 


if( IsEmpty( H 2 ) 
{ 


Error( "Empty binomial queue" ); 
return -Infinity; 
1 


MinItem = Infinity; 
for( i = 0; i < MaxTrees; i++ ) 
1 
if( H-»TheTrees[ i ] && 
H-»TheTrees[ i ]-»Element < MinItem ) 


/* Update minimum */ 
MinItem = H-»TheTrees[ i ) ->Element; 
MinTree = i; 
) 
) 


DeletedTree = H-»TheTrees[ MinTree ]; 
01dRoot = DeletedTree; 

DeletedTree « DeletedTree-»LeftChild; 
free( OldRoot ); 


DeletedQueue = Initialize( ); 
DeletedQueue->CurrentSize = ( 1 << MinTree ) - 1; 
for( j = MinTree - 1; j >= 0; j-- ) 


DeletedQueue-»TheTrees[ j ] = DeletedTree; 

DeletedTree = DeletedTree-»NextSibling; 

DeletedQueue->TheTrees{ j ]-»NextSibling = NULL; 
} 


H->TheTrees[ MinTree ] = NULL; 
H->CurrentSize -~ DeletedQueue-»CurrentSize + 1; 


Merge( H, DeletedQueue ): 
return MinItem; 











图 6-56 二 项 队列 的 DeleteMin 


总 结 


在 这 一 章 , 我 们 已 经 看 到 优先 队列 ADT 的 各 种 实现 方法 和 用 途 。 标 准 的 二 叉 堆 实现 由 
于 简单 和 速度 快 从 而 是 精致 的 。 它 不 需要 指针 ,只 需要 常数 的 附加 空间 ,上 且 有 效 支持 优先 队 
列 的 操作 。 

我 们 考虑 了 另外 的 合并 操作 , 发 展 了 三 种 实现 方法 ,每 种 都 有 其 独到 之 处 。 左 式 堆 是 递 
归 强 大 力量 的 完美 实例 。 斜 堆 则 是 代表 缺少 平衡 原则 的 一 种 重要 的 数据 结构 。 它 的 分 析 是 有 
趣 的 ,我 们 将 在 第 11 章 进行 。 二 项 队列 表明 , 如何 用 一 个 简单 的 想法 来 达到 好 的 时 间 界 。 

我 们 还 看 到 优先 队列 的 几 个 用 途 , 从 操作 系统 的 工作 调度 到 模拟 。 我 们 将 在 第 7、9 和 10 
章 青 次 看 到 它们 的 应 用 。 
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练习 


6.1 设 我 们 用 FindMin 替换 DeleteMin 函数 。 操作 Insert 和 操作 FindMin 都 能 以 常数 时 
间 实 现 吗 ? 
6.2 a. 写 出 一 次 一 个 地 将 10, 12. 1, 14, 6, 5, 8, 15. 3. 9.7. 4. 11, 13 和 2 插入 到 
一 个 初始 为 空 的 二 又 堆 中 的 结果 。 
b. 写 出 使 用 相同 的 输入 通过 线性 时 间 算 法 建立 一 个 二 又 堆 的 结果 。 
6.3 写 出 在 上 面 练习 的 堆 中 执行 3 次 DeleteMin 操作 的 结果 。 
6.4 ”编写 在 二 叉 堆 中 进行 上 滤 的 例 程 和 进行 下 滤 的 例 程 。 
6.5 写 出 并 测试 一 个 在 二 叉 堆 中 执行 Inser, DeleteMin, BuildHeap, FindMin, DecreaseKey, 
Delete 和 IncreaseKey 等 操作 的 程序 。 
6.6 在 图 6-13 的 大 的 堆 中 有 多 少 节点 ? 
6.7 a. 证 明 对 于 二 又 堆 ,BuildHeap 至 多 在 元 素 间 进行 2N - 2 次 比较 。 
b. 证 明 8 个 元 素 的 堆 可 以 通过 堆 元 素 间 的 8 次 比较 构成 。 
“+c, 给 出 一 个 算法 ,用 是 N + O(log N) 次 元 素 比较 构建 出 一 个 二 又 堆 。 
，*6.8 证 明 , 在 一 个 大 的 完全 堆 (你 可 以 假设 N = 2- 1) 中 第 个 最 小 元 的 期 望 深度 以 
log k AF. 
6.99 a. 给 出 一 个 算法 以 找 出 二 叉 堆 中 小 于 某 个 值 X 的 所 有 节点 。 你 的 算法 应 该 以 
O(K) 运 行 , 其 中 ，K 是 输出 的 节点 数 。 
b. 你 的 算法 可 以 扩展 到 本 章 讨论 过 的 任何 其 他 堆 结构 吗 ? 212 
«c. 给 出 一 个 算法 , 使 最 多 用 大 约 3N/4 次 比较 找 出 二 叉 堆 中 任意 的 项 X 。 
+ 56.10 提出 一 个 算法 , 用 O(M + log N loglogN) 时 间 将 M 个 节点 插入 到 N 个 元 素 的 二 
叉 堆 中 。 证 明 你 的 时 间 界 。 
6.11 编写 一 个 程序 输入 N 个 元 素 并 
a. 将 它们 一 个 一 个 地 插入 到 一 个 堆 中 。 
b. 以 线性 时 间 建立 一 个 堆 。 
比较 这 两 个 算法 对 于 已 排序 、 反 序 以 及 随机 输入 的 运行 时 间 。 
6.12 ”每 个 DeleteMin 操作 在 最 坏 情形 下 使 用 2log N 次 比较 。 
«a. 提出 一 种 方案 使 得 DeleteMin 操作 只 使 用 log N + loglog N + O(1) 次 元 素 间 
的 比较 。 这 未 必 意 味 着 较 少 的 数据 移动 。 
eb. 扩展 你 在 (a) 部 分 中 的 方案 使 得 只 执行 log N + loglogiog N + OCDE. 
«crc. 你 能 够 把 这 种 想法 推 向 多 远 ? 
d. 在 比较 中 节省 下 来 的 开销 能 否 补偿 你 的 算法 增加 的 复杂 性 ? 
6.13 ”如 果 一 个 中 堆 作 为 一 个 数组 存储 , 那么 对 位 于 位 置 i 的 项 ， 其 父亲 和 儿子 都 在 哪里 ? 
6.14. 设 一 个 d- 堆 初始 时 有 NN 个 元 素 ,而 我 们 需要 对 其 执行 M 次 PercolateUp 和 N 次 
DeleteMin。 
a. 用 M、N 和 d 表示 的 所 有 操作 的 总 的 运行 时 间 是 多 少 ? 
b. 如 果 d = 2, 所 有 的 堆 操作 的 运行 时 间 是 多 少 ? 
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c. MR d = O(N), 总 的 运行 时 间 是 多 少 ? 
«d. 对 a 作 什么 选择 将 最 小 化 总 的 运行 时 间 ? 

6.15 最 小 一 最 大 堆 (min-max heap) 是 支持 两 种 操作 DeleteMin 和 DeleteMax 的 数据 结 
构 , 每 个 操作 用 时 O(log N) 该 结构 与 二 叉 堆 相 同 , 不 过 , 其 堆 序 性 质 为 : 对 于 
在 偶数 深度 上 的 任意 节点 X, 存储 在 X 上 的 关键 字 小 于 它 的 父亲 但 是 大 于 它 的 祖 
父 ( 这 是 有 意义 的 ), 对 于 奇数 深度 上 的 任意 节点 X, 存储 在 X 上 的 关键 字 大 于 它 
的 父亲 但 是 小 于 它 的 祖父 , 见 图 6-57。 





图 6-57 最 小 -最 大 堆 


a. 我 们 如 何 找到 最 小 元 和 最 大 元 ? 
«b. 给 出 一 个 算法 将 一 个 新 节点 插入 到 该 最 小 一 最 大 堆 中 。 
«c. 给 出 一 个 算法 执行 DeleteMin 和 DeleteMax。 
«d. 你 能 否 以 线性 时 间 建 立 一 个 最 小 一 最 大 堆 ? 
^e. 设 我 们 想 要 支持 操作 DeleteMin, DeleteMax 以 及 Merge。 提出 一 种 数据 结构 以 
时 间 O(log N) 支 持 所 有 的 操作 。 
6.16 合并 图 6-58 中 的 两 个 左 式 堆 。 





图 6-58 


6.17. 写 出 依 序 将 关键 字 1 到 15 插入 一 个 初始 为 空 的 左 式 堆 中 的 结果 。 

6.18 ”证明 下 述 结论 成 立 或 不 成 立 : 如 果 将 关键 字 1 到 2 — 1 依 序 插入 到 一 个 初始 为 空 
的 左 式 堆 中 , 那么 结果 形成 一 棵 理想 平衡 树 (perfectly balanced tree)。 

6.19 给 出 一 个 生成 最 佳 左 式 堆 的 输入 的 例子 。 

6.20 a. 左 式 堆 能 否 有 效 地 支持 DecreaseKey? 
b. 完成 该 功能 需要 哪些 变化 (如 果 可 能 的 话 )? 
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6.21 从 左 式 堆 中 一 个 已 知 位 置 删除 节点 的 一 种 方法 是 使 用 懒 情 策略 。 要 删除 一 个 节点 ， 
只 要 将 其 标记 为 已 被 删除 即 可 。 当 执行 一 个 FindMin 或 DeleteMin 时 , 若 标记 根 节 
点 被 删除 则 存在 一 个 潜在 的 问题 ,因为 此 时 节点 必须 被 实际 删除 且 需 要 找到 实际 
的 最 小 元 , 这 可 能 涉及 到 删除 其 他 一 些 已 做 标记 的 节点 。 在 该 方法 中 ,Delete 花费 
一 个 单位 , 但 一 次 DeleteMin 或 FindMin 的 开销 却 依赖 于 被 做 删除 标记 的 节点 的 
个 数 。 设 在 一 次 DeleteMin 或 FindMin 后 做 标记 的 节点 比 操作 前 少 了 个。 
+a. 说 明 如 何以 O(k log N) 时 间 执行 DeleteMin。 

**b. 提出 一 种 实现 方法 , 通过 分 析 证 明 执行 DeleteMin 的 时 间 为 O(k log (2N/k)) 

6.22 ”我 们 可 以 以 线性 时 间 对 左 式 堆 执行 BuildHeap 操作 : 把 每 个 元 素 当 作 是 单 节点 左 
RHE, 把 所 有 这 些 堆放 到 一 个 队列 中 。 之 后 , 让 两 个 堆 出 队 , 合并 它们 , 再 将 合 
结果 入 队 , 直到 队列 中 只 有 一 个 堆 为 止 。 
a. 证 明 该 算法 在 最 坏 情 形 下 为 O( N):- 
b. 为 什么 该 算法 优 于 课文 中 描述 的 算法 ? 

6.23 合并 图 6-58 中 的 两 个 斜 堆 。 

6.24” 写 出 将 关键 字 1 到 15 依 序 插 人 到 一 斜 堆 内 的 结果 。 

6.25 ”证明 下 述 结论 成 立 或 不 成 立 : 如 果 将 关键 字 1 到 2: -1 依 序 插入 到 一 个 初始 为 空 
的 斜 堆 中 , 那么 结果 形成 一 棵 理想 平衡 树 ( perfectly balanced tree)。 

6.26， 使 用 标准 的 二 又 堆 算法 可 以 建立 一 个 N 个 元 素 的 斜 堆 。 我 们 能 否 将 练习 6.22 中 
描述 的 同样 的 合并 方法 用 于 斜 堆 而 得 到 O( NN) 运行 时 间 ? 

6.27 证 明 二 项 树 B, UZIR Bo, Bis -> Be- ! 作 为 其 根 的 儿子 。 


6.28 证 明 高 度 为 的 二 项 树 在 深度 4 es 
6.29 将 图 6-59 中 的 两 个 二 项 队列 合 
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Ig 6-59. 
6.30 a 证 明 : 向 初始 为 空 的 二 项 队列 进行 N 次 Insert 最 坏 情形 下 的 运行 时 间 为 
O(N). 
b. 给 出 一 个 算法 来 建立 有 N 个 元 素 的 二 项 队列 , 在 元 素 间 最 多 使 用 N - 1 次 比 
较 。 


wc. 提出 一 个 算法 , 以 O(M + logN) 最 坏 情形 运行 时 间 将 M 个 节点 插入 到 NN 个 
元 素 的 二 项 队列 中 。 证 明 你 的 界 。 
6.31 写 出 一 个 有 效 的 例 程 使 用 二 项 队列 来 完成 Insert 操作 。 不 要 调用 Merges 
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6.32 对 于 二 项 队列 : 
a. 当 调用 Merge(H, 昌 ) 时 会 发 生 什么 情况 ?修改 代码 以 修正 该 问题 。 
b. 如 果 在 H: 中 没有 树 留 下 且 Carry 树 为 NULL, 修改 Merge 例 程 以 终止 合并 。 


c. 修改 Merge 使 得 较 小 的 树 总 被 合并 到 较 大 的 树 中 。 
**6.33 ”假设 我 们 将 二 项 队列 扩充 为 允许 每 个 结构 至 多 有 两 棵 相同 高 度 的 树 。 我 们 能 否 在 


其 他 操作 保留 为 O(log N) 时 实现 最 坏 情形 时 间 为 O(1) 的 插入 ? 

6.34 ” 设 有 许多 盒子 ,每 个 盒子 都 能 容纳 总 重量 CHAY i, iz i3... iv, 它们 分 别 
重 w, w ws, ..., yo 现在 想 要 把 所 有 的 物品 包装 起 来 , 但 任 一 盒子 都 不 能 
放置 超过 其 容量 的 重 物 ， 而 且 要 使 用 尽量 少 的 盒子 。 例如 , AC = 5, 物品 分 别 重 
2, 2, 3, 3, 则 我 们 可 用 两 个 盒子 解决 该 问题 。 

一 般 说 来 , 这 个 问题 很 难 , 没有 已 知 的 有 效 的 解决 方法 。 编 写 一 个 程序 ， 有 效 
地 实现 下 列 各 近似 策略 : 
sa 将 物品 放 人 能 够 承受 其 重量 的 第 一 个 盒子 内 (如 果 没 有 盒子 拥有 足够 的 容量 就 
开辟 一 个 新 的 盒子 ) 。( 该 策略 以 及 后 面 所 有 的 策略 都 将 得 出 3 个 盒子 , 这 不 是 
最 优 的 结果 。) 
b. 把 物品 放 人 对 其 有 最 大 容量 的 盒子 内 。 
sc. 把 物品 放 人 能 够 容纳 下 它 而 又 不 过 载 的 装填 得 最 满 的 盒子 中 。 
* n d. 这 些 策略 中 有 通过 将 物品 按 重 量 预先 排序 而 功能 得 到 增强 的 吗 ? 
6.35 ” 设 我 们 想 要 将 操作 DecreaseAllIKeys(A) 添 加 到 堆 的 指令 系统 中 去 。 该 操作 的 结果 是 
. 堆 中 所 有 的 关键 字 都 将 它们 的 值 减少 量 A。 对 于 你 所 选择 的 堆 的 实现 方法 ， 解释 所 
做 的 必要 的 修改 ,使 得 所 有 其 他 操作 都 保持 它们 的 运行 时 间 而 DecreaseAllKeys 以 
O(1) 运 行 。 
6.36. 这 两 个 选择 算法 中 哪个 具有 更 好 的 时 间 界 ? 
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最 小 一 最 大 堆 (练习 6.15) 原 始 描 述 见于 [1]。 那些 操作 的 更 有 效 的 实现 在 [18] 和 [24] 中 
给 出 。 双 端 优先 队列 (double-ended priority queue) 的 另外 一 些 表示 形式 是 deap 和 diamond 
dequeue, 细节 可 见于 [5]、[7] 和 [9]。 练习 6.15(e) 的 解法 在 [12] 和 [20] 中 给 出 。 
理论 上 有 趣 的 优先 队列 表示 法 是 斐 波 那 契 堆 (Fibonacci heap)[16]， 我 们 将 在 第 11 章 中 
描述 它 。 斐 波 那 契 堆 使 得 所 有 的 操作 都 以 O(1) 捧 还 时 间 执行 ， 但 删除 操作 却 是 O(log N)。 
松 堆 (relaxed heap)[13] 得 到 最 坏 情形 下 完全 相同 的 界 ( 除 合并 操作 外 )。 [3] 的 过 程 对 所 有 操 
作 均 得 到 最 佳 的 最 坏 情 形 界 。 另外 一 种 有 趣 的 实现 方法 是 配对 堆 (pairing heap)[15], 它 将 在 


KHAKI OR) 163 


第 12 章 描述 。 最后, 当 数 据 由 一 些小 的 整数 组 成 时 仍 能 正常 工作 的 优先 队列 在 [2 和 [25] 中 
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第 7 章 H Fm 


在 这 一 帝 , 我 们 讨论 将 元 素 的 数组 排序 的 问题 : 为 简单 起 见 , 假设 在 我 们 的 例子 中 数组 
的 结构 显然 也 是 可 能 的 。 对 于 本 章 的 大 部 分 内 容 . 我 们 还 假设 整个 
区 成. 因此 , 元 素 的 个 数 相对 来 说 比较 小 (小 于 10) ”当然 . 不 能 在 主 
在 中 完成 而 必须 在 磁 稚 或 磁带 上 完成 的 排序 也 相当 重要 - 这 种 类 型 的 排序 叫做 外 部 排序 (ex- 
ternal sorting). 将 在 本 章 未 尾 进行 讨论 
我 们 对 内 部 排序 的 考查 将 指出 : 
e 在 在 几 种 容易 的 算法 以 OCN? FETE. 如 插入 排序 
e 有 有 一 种 算法 叫做 希 尔 排序 (Shellxort) , 它 编程 非常 简单 , 以 oCNT)ie f. 并 在 实践 中 很 
有 效 
e 有 一 些 稍微 复杂 些 的 O(N log N) 的 排序 算法 
。 任何 授 用 的 排序 算法 均 需 要 QUN log N) 次 比较 
和 其余 部 分 将 描述 和 分 析 各 种 排序 算法 -这些 算 法 包含 一 些 有 趣 的 和 重要 的 代码 优 
化 和 算法 设计 思想 ， 可 以 对 排序 做 出 精确 的 分 析 - 预先 说 明 , 在 适当 的 时 候 , 我 们 将 尽 可 能 
地 多 做 一 些 分 析 


7.1 预备 知识 


我 们 描述 的 算法 都 将 是 可 以 互 换 的 。 每 个 算法 都 将 接收 一 个 含有 元 素 的 数组 和 一 个 包含 
无 来 个 数 的 整数 

我 们 将 假设 N 是 传递 到 我 们 的 排序 例 程 中 的 元 素 个 数 , 它 已 经 被 检查 过 ,是 合法 的 。 按 
照 C 的 约定 , 对 于 所 有 的 排序 . 数据 都 将 在 位 置 0 处 开始 。 

我 ff < “和 "> "运算 符 存在 , 它们 可 以 用 于 将 相 容 的 序 放 到 输入 中 。 除 赋值 运算 
符 外 . 这 两 种 运算 是 仅 有 的 允许 对 输入 数据 进行 的 操作 。 在 这 些 条 件 下 的 排序 叫做 基于 比较 


的 排序 (comparison-based sorting) 


7.2 插入 排序 


7.2.1 算法 

芯 简 单 的 排序 算法 之 一 是 插入 排序 (insertion sort). 插入 排序 由 N — 1 48 (pass) HERR AL 
成 ”对 于 P=1 WA PN- B, 插入 排序 保证 从 位 置 0 到 位 置 P 上 的 元 素 为 已 排序 状态 : 
插入 排序 利用 了 这 样 的 事实 : 位 置 0 到 位 置 P -1 上 的 元 素 是 已 排 过 序 的 。 图 7-1 显示 一 个 
简单 的 数组 在 每 一 趋 插入 排序 后 的 情况 - 

PA 7-1 表达 了 一 般 的 方法 ”在 第 Ph. 我 们 将 位 置 P 上 的 元 素 向 左 移动 到 它 在 前 P+1 个 
多 来 中 的 正确 位 置 上 。 图 7-2 中 的 程序 实现 该 想法 .第 2 行 到 第 5 行 实现 数据 移动 而 没有 明显 
使 用 交换 ， 位 置 P 上 的 元 素 存 于 Tp. 而 (在 位 置 已 之 前 ) 所 有 更 大 的 元 素 都 被 向 右 移动 一 个 
位 置 ， 然 后 Tnp 被 置 于 正确 的 位 置 上 。 这 种 方法 与 在 实现 二 又 堆 时 所 用 到 的 技巧 相同 - 
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图 7-1 每 趟 后 的 插入 排序 





void 
InsertionSort( ElementType A[ ], int N ) 
{ 

int j, P; 


Element Type Tmp; 
tay for( P = li P <N; Pee) 


{ 
JH Tmp = AL P J: 
EU for( j =P; j> O& AL j - 11 > tmp; j-- ) 
as AL[j]=A[j-1l]; 
| 58 AL j ] = Tep; 
} 





上 











图 7-2 插 人 排序 例 程 


7.2.2 插入 排序 的 分 析 

由 于 堪 套 循环 的 每 一 个 都 花费 N 次 迭代 ,因此 插入 排序 为 O( N2), 而 且 这 个 界 是 精确 
的 ,因为 以 反 序 输入 可 以 达到 该 界 。 精 确 计算 指出 对 于 P 的 每 一 个 值 , 第 4 行 的 测试 最 多 执 
行 P+1 次 。 对 所 有 的 PORTU, 得 到 总 数 为 


x 
Di=2+3+4+...+N= O(N?) 


另 一 方面 , 如 果 输 入 数据 已 预先 排序 , 那么 运行 时 间 为 ON). 因为 内 层 for 循环 的 检测 总 
是 立即 判定 不 成 立 而 终止 。 事 实 上 ,如 果 输入 几乎 被 排序 (该 术语 将 在 下 一 节 更 严格 地 定义 )， 
那么 插入 排序 将 运行 得 很 快 。 由 于 这 种 变化 差别 很 大 , 因此 值得 我 们 去 分 析 该 算法 平均 情形 的 
行为 。 实 际 上 , 和 各 种 其 他 排序 算法 一 样 , 插入 排序 的 平均 情形 也 是 OC), 详 见 下 节 的 分 析 。 


7.3 ”一些 简单 排序 算法 的 下 界 


成 员 存 数 的 数组 的 一 个 逆序 (inversion) 是 指数 组 中 具有 性 质 i<j 但 A[i] > A[j] 的 序 
偶 (A[;],A[j])。 在 上 节 的 例子 中 , 输入 数据 34，8，64, 51, 32, 21 有 9 个 逆序 ， 即 (34， 
8), (34, 32), (34, 21), (64, 51), (64, 32), (64, 21), (SI. 32), (51, 21) 以 及 (32, 21)。 
注意 , 这 正好 是 需要 由 插入 排 序 ( 非 直接 ) 执 行 的 交换 次 数 。 情 况 总 是 这 样 ， 因为 交换 两 个 不 
按 诛 序 排列 的 相 邻 元 素 恰好 消除 一 个 逆序 ,而 一 个 排 过 序 的 数组 没有 逆序 。 由 于 算法 中 还 有 
O(CN) 项 其 他 的 工作 , 因此 插入 排序 的 运行 时 间 是 OC +N), X I 为 原始 数组 中 的 逆序 
数 。 FE, 若 逆序 数 是 O(N), 则 插入 排序 以 线性 时 间 运行 。 

我 们 可 以 通过 计算 排列 中 的 平均 闻 序 数 而 得 出 插入 排序 平均 运行 时 间 的 精确 的 办。 如 往 
WORE, 定义 平均 是 一 个 困难 的 命题 。 我 们 将 假设 不 存在 重复 元 素 (如 果 我 们 允许 重复 , WM 
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么 其 至 连 重复 的 平均 次 数 究竟 是 什么 都 不 清楚 ) -利用 该 假设 我们 可 设 输 入 数据 是 前 N 个 
整数 的 某 个 排列 (因为 只 有 相对 顺序 才 是 重要 的 ) ,并 设 所 有 的 排列 都 是 等 可 能 的 .在 这 些 假 
设 下 , 我 们 有 如 下 定理 : 

定理 7.1 

个 互 异 数 的 数组 的 平均 逆序 数 是 XCN- 1)44 

证 明 : 

对 于 任意 的 数 的 表 L. 考虑 其 反 序 表 L， 上 例 中 的 反 序 表 是 21. 32. 51.64. 8. 34. X 
虑 该 表 中 任意 两 个 数 的 序 偶 (x, S0. Fly > r BA, EL AIL, 之 中 一 个 , 该 序 偶 表 示 
PRF ER L MEM REL, 中 序 偶 的 总 个 数 为 N(N - 072. 因此. 平均 表 有 该 量 
的 -- 半 , 即 N(N - 1)44 个 逆序 

这 个 定理 意味 着 插入 排序 平均 是 二 次 的 , 同时 也 提供 了 只 交换 相 邻 元 素 的 任何 算法 的 一 





个 很 此 的 下 界 
定理 7.2 
通过 交换 相 邻 元 素 进行 排序 的 任何 算法 平均 需要 UNTER 
证 明 : 


切 始 的 平均 道 序数 是 N(N - 1/4 = 0(N?). 而 每 次 交换 只 减少 一 个 逆序 . 因此 需要 
DUN?) EH 

这 是 证 明 下 界 的 一 个 例子 , "E ASAE t s Ot KABER A 8 09 468 AE A Ct 
县 对 诸如 冒 泡 排序 和 选择 排序 等 其 他 一 些 简单 算法 也 是 有 效 的 、 不 过 这 些 算法 我 们 将 不 在 这 
里 描述 ,事实 上 , 它 对 一 整 类 只 进行 相 邻 元 素 的 交换 的 排序 算法 , 包括 那些 未 被 发 现 的 算 
ik. 都 是 有 效 的 。 正 因为 如 此 , 这 个 证 明 在 经 验 上 是 不 能 被 认可 的 .虽然 这 个 下 界 的 证 明 非 
常 简单 ,但 是 一 般 说 来 证 明 下 界 要 比 证 明 上 界 复杂 得 多 

这 个 下 界 告诉 我 们 , 为 了 使 一 个 排序 算 二 次 (subquadratic) 或 o( N? Afi 
须 执行 -- 些 比较 , 特别 要 对 相距 较 远 的 元 素 进行 交换 一 个 排序 算法 通过 删除 逆 
进行 .而 为 了 有 效 地 运行 它 必 须 每 次 交换 删除 不 止 一 个 逆序 


7.4 希 尔 排序 


希 尔 排 序 (Shellsort ) 的 名 称 源 于 它 的 发 明 者 Donald Shell . 该 算法 是 冲破 二 次 时 间 屏 障 
的 第 一 批 算法 之 一 ， ,自从 它 最 初 被 发 现 , 又 过 了 若干 年 后 才 证 明了 它 的 亚 二 次 时 间 界 
正如 上 节 所 提 到 的 , 它 通 过 比较 相距 一 定 间隔 的 元 素来 工作 ; 各 趟 比较 所 用 的 距离 随 着 算法 
的 进行 而 减 小 , 直到 只 比较 相 邻 元 素 的 最 后 一 趟 排序 为 止 。 由 于 这 个 原因 , 希 尔 排 序 有 时 也 
叫做 缩小 增 量 排序 (diminishing increment sort) 

希 尔 排序 使 用 一 个 序列 hi has sss A. 叫做 增 量 序列 (increment sequence). FUE hy = 1AE 
何 增 量 序列 都 是 可 行 的 , 不 过 , 有 些 增 量 序列 比 另 外 一 些 增 量 序列 更 好 (后 面 我 们 将 讨论 这 
个 问题 ) CERO A, 的 一 趟 排序 之 后 , 对 于 每 一 个 RTA ALIS Ai + hh]( 这 里 它 
是 有 意义 的 ); 所 有 相隔 h 的 元 素 都 被 排序 ”此 时 称 文件 是 和 -排序 (AM-sorted) 的 。 例如 ,图 
7-3 显示 在 各 趟 排序 后 数组 的 情况 。 希 尔 排 序 的 一 个 重要 性 质 (我 们 只 叙述 而 不 证 明 ) 是 , 一 
个 如 -排序 的 义 件 (此 后 将 是 各 -排序 的 ) 保 持 它 的 he HEFTE EKE. 假如 情况 不 是 这 样 
的 话 .那么 该 算法 也 就 没什么 意义 了 . 因为 前 面 各 趟 排序 的 结果 就 会 被 后 面 各 趟 排序 给 
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图 7-3 ”和希 尔 排序 每 趟 之 后 的 情况 


Ar- 排序 的 一 般 做 法 是 , 对 于 hi ,hi + 1，...，N 一 1 中 的 每 一 个 位 置 i, 把 其 上 的 元 素 放 
BN i, i hy, i 一 2h… 中 间 的 正确 位 置 上 。 虽 然 这 并 不 影响 最 终结 果 , 但 是 仔细 的 考查 指 
出 , 一 趟 h 排序 的 作用 就 是 对 hi 个 独立 的 子 数组 执行 一 次 插入 排序 。 当 我 们 分 析 希 尔 排 
序 的 运行 时 间 时 , 这 个 考查 结果 将 是 很 重要 的 。 

增 量 序列 的 一 种 流行 (但 是 不 好 ) 的 选择 是 使 用 Shell 建议 的 序列 : A, = N/ 2 IAI A, = 
Lhu a7 21 7-4 包含 一 个 使 用 该 序列 实现 希 尔 排序 的 程序 。 后 面 我 们 将 看 到 , 存在 一 些 递 
增 的 序列 , 它们 对 该 算法 的 运行 时 间 做 出 了 重要 的 改进 ; 即使 是 一 个 小 的 改变 都 可 能 剧烈 地 
影响 着 算法 的 性 能 ( 见 练习 7.10)。 

图 7-4 中 的 程序 以 与 我 们 在 插入 排序 实现 方法 中 相同 的 方式 避免 明显 地 使 用 交换 。 





void 
Shellsort( ElementType A[ J, int N) 
{ 


int i, j, Increment; 
ElementType Tmp; 


EVI for( Increment = N / 2; Increment > 0; Increment /= 2 ) 
fe for( i= Increment; i < Ni i++) 
/*3 Tmp = AL i J; 
J* n for( j = i; j >= Increment; j -= Increment ) 
/* 5e if( Tmp < A[ j - Increment ] ) 
7* 6*/ AL j ] = AL j - Increment }; 
else 
"n break; 
/* 8h AL j ] = Tmp: 


上 





1 








图 7-4 “使 用 硕 尔 增 量 的 希 尔 排序 例 程 (可 能 有 更 好 的 增 革 》 


7.4.1 希 尔 排序 的 最 坏 情形 分 析 
虽然 希 尔 排序 编程 简单 ,但 是 ,其 运行 时 间 的 分 析 则 完全 是 另外 一 回 事 。 希 尔 排序 的 运 


行 时 间 依赖 于 增 量 序列 的 选择 ,而 证 明 可 能 相当 复杂 。 希 尔 排序 的 平均 情形 分 析 , 除 最 平凡 
的 一 些 增 量 序列 外 ,是 一 个 长 期 未 解决 的 问题 。 我 们 将 证 明 在 两 个 特别 的 增 量 序列 下 最 坏 情 
形 的 精确 的 界 。 

定理 7.3 

使 用 希 尔 增 量 时 希 尔 排序 的 最 坏 情形 运行 时 间 为 6( N?)。 

证 明 : 

证 明 不 仅 需要 指出 最 坏 情形 运行 时 间 的 上 界 ， 而 且 还 需要 指出 存在 某 个 输入 实际 上 就 花 
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费 Q(N?) 时 间 运 行 。 首 先 通 过 构造 一 个 坏 情形 来 证 明 下 界 . 我 们 先 选择 N 是 2 RUNE. i HE 
得 除 最 后 一 个 增 量 是 1 外 所 有 的 增 量 都 是 偶数 。 现 在 , 我 们 给 出 一 个 数组 InputData 作为 输 
入 , 它 的 偶数 位 置 上 有 NM7 2 个 同 是 最 大 的 数 ,而 在 奇数 位 置 上 有 NM7 2 个 同 为 最 小 的 数 (对 
该 证 明 , 第 一 个 位 置 是 位 置 1)。 由 于 除 最 后 一 个 增 量 外 所 有 的 增 量 都 是 偶数 , 因此 . 当 我 们 
进行 最 后 一 趋 排序 前 ，N/ 2 个 最 大 的 元 素 仍然 处 在 偶数 位 置 上 , 而 NA2 个 最 小 的 元 素 也 还 
是 在 奇数 位 置 上 、 于 是 , 在 最 后 一 趟 排序 开始 之 前 第 1 个 最 小 的 数 (i 志 N/A2) 在 位 置 2i 一 1 
上 将 第 ;个 元 素 恢复 到 其 正确 位 置 需要 在 数组 中 移动 ; - 1 个 间隔 。 这 样 , 仅仅 将 NX 2 
个 最 小 的 元 素 放 到 正确 的 位 置 上 就 需要 至 少 NY - 1 = O(N?) 的 工作 。 作 为 一 个 例子 ， 
1d 7-5 显示 一 个 N = 16 时 的 坏 (但 不 是 最 坏 ) 的 输入 。 在 2- 排序 后 的 逆序 数 一 直 恰好 保持 为 
11213+4+5+6+7=28; 因此 , 最 后 一 趟 排序 将 花费 相当 多 的 时 间 。 

现在 我 们 证 明 上 界 O(N?) 以 结束 本 证 明 。 前 面 已 经 观察 到 , 带 有 增 量 hi 的 一 趟 排序 由 
hi 个 关于 NA 个 元 素 的 插入 排序 组 成 - 由 于 插入 排序 是 二 次 的 , 因此 一 趟 排序 总 的 开销 是 
OU CN ZI, Y). = O(N?/h)。 对 所 有 各 趟 排序 求 和 则 给 出 总 的 界 为 OOA N°) = 
OCC ”114,) :因为 这 些 增 量 形成 一 个 几何 级 数 ， 其 公 比 为 2, 而 该 级 数 中 的 最 大 项 是 


y= 1, 因此, NOU vn, < 2。 于 是 , 我 们 得 到 总 的 界 O(N) 

















| ne [ro2 nm 3m nsnm 6 4 7 5 8 
在 8- 排 序 后 | 1 9 2 17 3 11 4 D $ B 6 14 7 05 8 I6 
在 + 排序 后 | 1 9 2 00 3 11 4 012 5$ 13 6 08 7 iS 8 16 
在 2 排序 后 | 1 9 2103 1 4 1 5 13 6 14 7 15 8 16 
在 上 排序 后 | 1! 2345.6 7 8 9 10 1 12 13 M 15 16 




















图 7-5 具有 和 希 尔 增 量 的 希 尔 排序 的 坏 博 形 (位 置 编号 从 1 到 16) 


希 尔 增 量 的 问题 在 于 ,这 些 增 量 对 未 必 互 素 , 因此 较 小 的 增 量 可 能 影响 很 小 Hibbard 
提出 一 个 稍微 不 同 的 增 量 序列 , 它 在 实践 中 (并 且 理 论 上 ) 给 出 更 好 的 结果 - 他 的 增 量 形 如 1、 
3,7,..., 21 - 1。 虽然 这 些 增 量 几乎 是 相同 的 , 但 关键 的 区 别 是 相 邻 的 增 量 没有 公 因 子 
现 企 我 们 就 来 分 析 使 用 这 个 增 量 序列 的 希 尔 排序 的 最 坏 情形 运行 时 间 , 这 个 证 明 相当 复杂 - 

定理 7.4 

使 用 Hibbard 增 量 的 希 尔 排序 的 最 坏 情形 运行 时 间 为 CN >) 

证 明 : 

我 们 只 证 明 上 界 而 将 下 界 的 证 明 留 作 练习 。 这 个 证 明 需 要 堆 双 数论 (additive number the- 
ory) 中 某 些 众所周知 的 结果 。 本 章 末 提 供 了 这 些 结果 的 参考 资料 。 

和 前 面 一 样 , 对 于 上 界 , 我 们 还 是 计算 每 一 不 排序 的 运行 时 间 的 界 然后 对 各 趟 求 和 。 对 
于 那些 n, NU 2 的 增 量 , 我 们 将 使 用 前 一 定理 得 到 的 界 OCNT /hi )。 虽然 这 个 界 对 于 其 他 
增 量 也 是 成 立 的 , 但 是 它 太 大 , 用 不 上 。 直 观 地 看 , 我 们 必须 利用 这 个 增 量 序列 是 特殊 的 这 
样 -个 事实 。 我 们 需要 证 明 的 是 , 对 于 位 置 P 上 的 任意 元 素 Ap， 当 要 执行 和 er- 排序 时 ， 只 有 
少数 元 素 在 位 置 P 的 左边 且 大 于 Ap。， 

当 对 输入 数组 进行 加- 排序 时 ,我 们 知道 它 已 经 是 hi 1- 排序 和 h，2- 排 序 的 了 。 在 he 
排 译 以 前 、 考虑 位 置 P 和 P 一 i 上 的 两 个 元 素 , 其 中 i 过 P。 如 果 i 是 hi BE hi + 的 倍数 , 那 
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么 显然 A[P - il< A[P]。 不 仅 如 此 、 WR i 可 以 表 为 hi h ,3 的 线性 组 合 (以 非 负 整 
数 的 形式 ), 那么 也 有 ALP ~ i] < ALP]。 例 如 , 当 我 们 进行 3- 排 序 时 , 文件 已 经 是 7- 排 
序 和 15- 排 序 的 了 。52 可 以 表 为 7 和 15 的 线性 组 合 : 52 = 17 + 3x15。 因 此 , A[100] 不 
可 能 大 于 A[152), 因为 A[100] 专 A1107]<A[122]<A[137]<A[152]。 

SUE, has =2hesi tl, 因此 hh ,1 和 hi ,3 没有 公 在 这 种 情形 下 , 可 以 证 明 , 至 少 
FO, 47 D (4:271) 98h + An, 一 样 大 的 所 有 整数 都 可 以 表 为 大:1 和 hi ,3 的 线性 组 合 
( 见 本 章 末尾 的 参考 文献 ) 

这 就 告诉 我 们 , 第 4 行 的 for 循环 体 对 于 这 些 N — 各 位 置 上 的 每 一 个 , 最 多 执行 8hk + 4 
= O(h) 次 。 于 是 我 们 得 到 每 趟 的 界 O( Nhi ) 

利用 大 约 一 半 的 增 量 满足 h,<VN 的 事实 并 假设 : 是 偶数 , 那么 总 的 运行 时 间 为 

o( imu + X N/m)= O(NS M, +N? X zn) 
m rm m erat 


m 


因为 两 个 和 都 是 几何 级 数 , 并 且 h, >= C/N), 所 以 上 式 简化 为 
N? 









= O(NI 2) + O(3-) = O(N") 


使 用 Hibbard 增 量 的 希 尔 排序 平均 情形 运行 时 间 基 于 模拟 的 结果 被 认为 是 ONS“), 但 
是 没有 人 能 够 证 明 该 结果 。Pratt 已 经 证 明 , ONY 3) 的 界 适用 于 广泛 的 增 量 序列 。 

Sedgewick 提出 了 几 种 增 量 序列 ， 其 最 坏 情形 运行 时 间 (也 是 可 以 达到 的 ) 为 O(N*S)。 

对 于 这 些 增 量 序列 的 平均 运行 时 间 猿 测 为 O( N76)。 经 验 研究 指出 ,在 实践 中 这 些 序列 的 运 

行 要 比 Hibbard 的 好 得 多 , 其 中 最 好 的 是 序列 |1, 5. 19, 41, 109... 1, 该 序列 中 的 项 或 者 是 

9.4 - 9-2 1, 或 者 是 4 - 3. 2'+ 1。 通 过 将 这 些 值 放 到 一 个 数组 中 可 以 最 容易 地 实 

:。 虽 然 有 可 能 或 许 存在 某 个 增 量 序列 使 得 能 够 对 希 尔 排序 的 运行 时 间 给 出 重大 改 





1 是 ,这 个 增 量 在 实践 中 还 是 最 为 人 们 称道 的 

关于 希 尔 排序 还 有 几 个 其 他 结果 , 它们 需要 数论 和 组 合 数学 中 一 些 艰深 的 定理 而 且 主 要 
是 在 理论 上 有 用 。 和 希 尔 排序 是 算法 非常 简单 且 又 具有 极其 复杂 的 分 析 的 一 个 好 例子 。 

希 尔 排序 的 性 能 在 实践 中 是 完全 可 以 接受 的 , 即使 是 对 于 数 以 万 计 的 N 仍 是 如 此 。 纺 
程 的 简单 特点 使 得 它 成 为 对 适度 地 大 量 的 输入 数据 经 常 选用 的 算法 。 


7.5 HHF 


正如 第 6 章 提 到 的 , 优先 队列 可 以 用 于 花费 O(N log N) 时 间 的 排序 。 基于 该 想法 的 算 
法 叫做 堆 排序 (heapsort) 并 给 出 我 们 至 今 所 见 到 的 最 佳 的 大 O 运行 时 间 。 然 而 ， 在 实践 中 它 
却 慢 于 使 用 Sedgewick 增 量 序列 的 希 尔 排序 。 

回忆 在 第 6 章 建立 N 个 元 素 的 二 叉 堆 的 基本 方法 ,此 时 的 花费 是 O(N) 时 间 。 然 后 我 
们 执行 N 次 DeleteMin 操作 。 按 照 顺序 ,最 小 的 元 素 先 离开 该 堆 。 通过 将 这 些 元 素 记 录 到 第 
二 个 数组 然后 再 将 数组 拷 册 回来 , 我 们 得 到 N 个 元 素 的 排序 。 由 于 每 个 DeleteMin 花费 时 间 
O(log N), 因此 总 的 运行 时 间 是 O(N log N)。 

该 算法 的 主要 问题 在 于 它 使 用 了 一 个 附加 的 数组 。 因 此 ， 存储 需求 增加 一 倍 。 在 某 些 实 
例 中 这 可 能 是 个 问题 。 注 意 ， 将 第 二 个 数组 拷贝 回 第 一 个 数组 的 额外 时 间 消耗 只 是 O(N )， 
这 不 可 能 显著 影响 运行 时 间 。 这 个 问题 是 空间 的 问题 。 
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避免 使 用 第 二 个 数组 的 聪明 的 做 法 是 利用 这 样 的 事实 : 在 每 次 DeleteMin 之 后 , 堆 缩小 
fa. 因此 , 位 于 堆 中 最 后 的 单元 可 以 用 来 存放 刚刚 删 去 的 元 素 ， 例 如 , 设 我 们 有 一 个 堆 ， 
它 含有 六 个 元 素 。 第 一 次 DeleteMin 产生 个 A 现在 该 堆 只 有 五 个 元 素 . 因此 我 们 可 以 把 
Al 放 在 位 置 6 上 : 下 一 次 DeleteMin 产生 个 A:, 由 于 该 堆 现在 只 有 四 个 元 素 , 因此 我 们 把 
A: WERE Sb. 

使 用 这 种 策略 ,在 最 后 一 次 DeleteMin Fi, 该 数组 将 以 递减 的 顺序 包含 这 些 元 素 ， 如 果 
我 们 想 要 这 些 元 素 排 成 更 典型 的 递增 顺序 , 那么 我 们 可 以 改变 序 的 特性 使 得 父亲 的 关键 字 的 
值 大 于 儿子 的 关键 字 的 值 。 这 样 就 得 到 (max) 堆 

我 们 在 实现 中 将 使 用 一 个 (max) 堆 , 但 由 于 速度 的 原因 避免 了 实际 的 ADT， 照 通常 的 习 
M. 每 一 件 事 都 是 在 数组 中 完成 的 。 第 一 步 以 线性 时 间 建 立 一 个 堆 - 然后 通过 将 堆 中 的 最 后 
元 素 与 第 一 个 元 素 交 换 , 缩 减 堆 的 大 小 并 进行 下 滤 ,来 执行 YN - 1 次 DeleieMax 操作 。 当 算 
法 终止 时 , 数组 则 以 所 排 的 顺序 包含 这 些 元 素 。 例如 , 考虑 输入 序列 31, 41, 59. 26. 53. 
58. 97， 所 得 到 的 堆 如 图 7-6 所 示 





a) 

NSF 
T T 1 

[ [97 [53 [59 Ta ss [31 | I 

0 | 23.4 5.6 7 8 9 I0 











图 7-6 f£ BuildHeap 阶段 以 后 的 ( Mar ) 4 


图 7.7 显示 在 第 一 次 DeleteMax 之 后 的 堆 。 从 图 中 看 出 , 堆 中 的 最 后 元 素 是 31; 堆 数组 
中 放置 97 的 那 一 部 分 从 技术 上 说 已 不 再 属于 该 堆 。 在 此 后 的 5 次 DeleteMax 操作 之 后 ,该 堆 
实际 上 只 有 一 个 元 素 ,而 在 堆 数组 中 留 下 的 元 素 呈 现 出 的 将 是 排序 后 的 顺序 














F Tso fsa [ss [26 [41 [31 [97 T] 
0 1 2 3.4 567 8 9 I0 




















7-7 在 第 一 次 DeleteMax 后 的 堆 


执行 堆 排序 的 代码 在 图 7-8 中 给 出 -稍微 复杂 的 是 ,不 像 二 又 堆 ， 当时 数据 是 在 数组 下 
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标 1 处 开始 , 而 此 处 堆 排序 的 数组 包含 位 置 0 处 的 数据 。 因此, 这 时 的 程序 与 二 叉 堆 的 代码 
有 些 不 同 , 不 过 变化 很 小 - 





define LeftChild( i) (2* (1)+1) 


void 
PercDown( ElementType A[ ], int i, int N ) 
i 


int Child; 
ElementType Tmp; 
Lak Wh for( Tmp = AL i J; LeftChild( i ) < N; i = Child ) 
It 297 Child = LeftChild( i ); 
fe 387 if( Child t= N - 1 && AL Child + 2) > AL Child) > 
DE Childs»; 
te se if( Tmp < AL Child ] ) 
/* 6*/ AL i] = AL Child ]; 
else 
r? break: 
} 
/* 8) AD = Tmp: 
} 
void 


Heapsort( ElementType A[ ], int N ) 

Um i 
DÀ for( i = N / 2; i >= 0; i-- ) /* BuildHeap */ 
M fore T «8-314320: 1-- ) 
4t ‘ Swap( &A[ O J, &A[ i J ); /* DeleteMax */ 
5 PercDown( A, 0, i D: 


) 
上 











图 7-8 堆 排序 


7.5.1 堆 排序 的 分 析 
我 们 在 第 6 章 看 到 , 第 一 阶段 构建 堆 最 多 用 到 2N 次 比较 。 在 第 二 阶段 , 第 i 次 
(228) pelereMax 最 多 用 到 2Liogi 次 比较 ,总 数 最 多 为 2N log N - O(N) 次 比较 ( 设 N22). W 
此 , 在 最 坏 的 情形 下 , 堆 排序 最 多 使 用 2N log N - O(N) 次 比较 。 练 习 7.12(b) 让 你 证 明 对 
于 所 有 的 DeleteMax 操作 ,有 可 能 同时 达到 它们 的 最 坏 情 形 。 
经 验 指出 ， 堆 排序 是 一 个 非常 稳定 的 算法 : 它 平均 使 用 的 比较 只 比 最 坏 情形 界 指出 的 略 
少 。 然 而 直到 最 近 , 还 没有 人 能 够 指出 堆 排序 平均 运行 时 间 的 非 平凡 界 。 似 乎 问题 在 于 连续 
的 DeleteMax 操作 破坏 了 堆 的 随机 性 ,使 得 概率 论证 非常 复杂 。 最 近 , 另 一 种 处 理 方法 被 让 
明 是 成 功 的 。 
定理 7.5 
对 N 个 互 异 项 的 随机 排列 进行 堆 排 序 , 所 用 的 比较 平均 次 数 为 2N log N = O(N log 
log N)« 
证 明 : 
构建 维 的 阶段 平均 使 用 B(N) 次 比较 , 因此 我 们 只 需要 证 明 第 二 阶段 的 界 。 设 一 个 排列 
9811. 2, ..., Nia 
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VERS i 1K DeleteMax 将 根 元 素 向 下 推 了 d; 层 - 此 时 它 使 用 了 24d; 次 比较 ”对 于 对 任意 
的 输入 数据 的 堆 排序 . 存在 一 个 开销 序列 ( cust sequence)D: di. d... dx. ÈH 
阶 彼 的 开销 ,该 并 销 由 Mp = NT a, 给 出 ; 因此 所 使 用 的 比较 次 数 是 2 

令 SENDE N 项 的 堆 的 个 数 - 可 以 证 明 (练习 7.42). FON) > GN) 其 中 ,ec = 
2.71828 我 们 将 证 明 , 只 有 这 些 堆 中 指数 上 很 小 的 部 分 (特别 是 ( NMX16)) 的 开销 小 于 
M = N(log N - log log N - 4) LJ 
人 小 为 (1) 的 一 项 , 这 样 ， 比 较 的 平均 次 数 至 少 是 2M: Kit, 我 们 的 基本 目标 则 是 证 明 存 
在 很 少 的 共有 小 的 开销 序列 的 堆 

因为 第 di 层 上 最 多 有 2 个 节点 
的 位 置 、 于 是 ,对 任意 的 序列 D. 对 





所 以 对 于 任意 的 d. 存在 根 元 素 可 能 到 达 的 2^ 个 可 能 
DeleteMax 的 互 异 序列 的 个 数 最 多 是 : 
Sp = 20124:. 24s 
简单 的 代数 处 理 指出 . 对 一 个 给 定 的 序列 
5,229 

因为 每 个 d, 可 取 上 和 Log NJ 之 间 的 任 一 值 . 所 以 最 多 存在 (log NO Pa HEADED 
出 此 可 知 ,需要 花费 开销 恰好 为 M 的 互 异 DeleteMax 序列 的 个 数 ,最 多 是 总 开销 为 M 的 开 
销 茸 全 的 个 数 乘 以 每 个 这 种 开销 序列 的 DeleteMax 序列 的 个 数 - 这 样 就 立刻 得 到 界 (log 
NOS 

于 销 序列 小 于 M 的 堆 的 总 数 最 多 为 


M 


M (log N) 2 € (log N)2M 
T 












如 果 我 们 选择 M = N(log N 一 log log N 一 4). 那么 开销 序列 小 于 M 的 堆 的 个 数 最 多 
为 ( NMI6 六 ,根据 我 们 前 面 的 评述 , 定理 得 让 

通过 更 复杂 的 论述 , 可 以 证 明 , 堆 排序 总 是 使 用 至 少 N log N - O(N) 次 比较 , 而且 存 
在 输入 数据 能 够 达到 这 个 界 。 似 乎 平均 情形 也 应 该 是 2N log N - O(N) 次 比较 (而 不 是 定 
9T. 5 中 更 线性 化 的 第 二 项 ); 这 是 否 能 够 证 明 (其 至 是 否 成 立 ) 还 是 个 未 解 法 的 问题 
7.6 归并 排序 

现在 我 们 把 注意 力 转 到 归并 排序 (mergesort) 归并 排序 以 OCN log N) 最 坏 情形 运行 时 
间 运 行 ,而 所 使 用 的 比较 次 数 几乎 是 最 优 的 。 它 是 递归 算法 一 个 很 好 的 实例 

这 个 算法 中 基本 的 操作 是 合并 两 个 已 排序 的 表 - 因为 这 两 个 表 是 已 排序 的 ,所 以 若 将 输 
出 放 到 第 : :个 表 中 时 则 该 算法 可 以 通过 对 输入 数据 一 趟 排序 来 完成 。 基 本 的 合并 算法 是 取 两 
个 输入 数组 A MB, 一 个 输出 数组 C、 以 及 三 个 计数 器 Apres Boer. Cptr. 它们 初始 置 于 对 
点 数组 的 开始 端 。A[Aprr] 和 B[Bptr] 中 的 较 小 者 被 拷贝 到 C 中 的 下 一 个 位 置 ， 相关 的 计 
数 器 向 前 推进 一 步 ， 当 两 个 输入 表 有 一 个 用 完 的 时 候 、 则 将 另 一 个 表 中 剩余 部 分 拷贝 到 C 
中 合并 例 程 工作 的 例子 见 下 面 各 图 。 

Dese] [ls 27:38] ] T LIN 
T T 























Apir Bptr Cprr 


如 果 数 组 A BAT 1. 13, 24, 26, 数组 月 含有 2. 15, 27, 38, 那么 该 算法 进行 如 下 : 首 
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先 , 比较 在 1 和 2 之 间 进 行 , 1 被 加 到 C 中 , 然后 13 和 2 进行 比较 。 

















































































































1 [13]24]26] [2 [s]a] [i 
T T T 
Aptr Bptr Cptr 
2 被 添加 到 C 中 , 然后 13 和 15 进行 比较 。 
1 [slaj] esp] CELI 
T T 
Aptr Bptr Cor 
13 被 添加 到 C 中 , 接 下 来 比较 24 和 15, 这 样 一 直 进 行 到 26 和 27 进行 比较 。 
1[3[2T2z] [2T5T27[s] [2 [2 [3 | 
T T 
Apir Bptr Cpr 
1 [13 [ea[26] [2 [as[27[38} [i]s] | 
T " T T 
Aptr Bptr Cptr 
1 [13] 24]26) [2 is 2 [98]. [4 [2 [us] 
| 
TT iL T 
Aptr Bptr Ctr 
将 26 添加 到 C 中 , 数组 A 已 经 用 完 。 
1 [13 [24] 26 2 [15 [27] 38 1 | 2 [13] 15] 24] 26 
t T T 
Aptr Bptr Cptr 


将 数组 B 的 其 余部 分 拷贝 到 C 中 。 
1]i3)24]26] [2 ]15]27]38] [3 F2 [n3 [us [25 [e 7 [ 8 
x Z m " 


Aptr Bptr Cptr 


























合并 两 个 已 排序 的 表 的 时 间 显然 是 线性 的 ， 因 为 最 多 进行 了 N- 1 次 比较 , 其 中 N 是 元 
素 的 总 数 。 为 了 看 清 这 一 点 , 注意 每 次 比较 都 是 把 一 个 元 素 加 到 C 中 , 但 最 后 的 比较 除外 ， 
它 至 少 添加 两 个 元 素 。 

因此 , 归并 排序 算法 很 容易 描述 。 如 果 N = 1, 那么 只 有 一 个 元 素 需 要 排序 , 答案 是 显 
然 的 。 否 则 , 递归 地 将 前 半 部 分 数据 和 后 半 部 分 数据 各 自 归并 排序 ， 得 到 排序 后 的 两 部 分 数 
据 , 然后 使 用 上 面 描述 的 合并 算法 再 将 这 两 部 分 合并 到 一 起 。 例 如 ， 欲 将 八 元 素数 组 24, 
13, 26, 1, 2, 27, 38, 15 排序 , 我 们 递归 地 将 前 四 个 数据 和 后 四 个 数据 分 别 排序 , 得 到 1， 
13, 24, 26, 2, 15, 27, 38。 然 后 , 将 这 两 部 分 合并 。 最 后 得 到 1, 2, 13, 15, 24, 26, 27. 
38。 该 算法 是 经 典 的 分 治 (divide-and-conquer) 策 略 ， 它 将 问题 分 成 一 些小 的 问题 然后 递归 求 
解 , 而 治 的 阶段 则 将 分 的 阶段 解 得 的 各 个 答案 修补 到 一 起 。 分 治 是 递归 非常 有 力 的 用 法 , R 
们 将 会 多 次 遇 到 。 

归并 排序 的 一 种 实现 方法 在 图 7-9 中 给 出 。 这 个 称 为 Mergesort 的 过 程 正 是 递归 例 程 
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MSort 的 一 个 驱动 程序 。 
| 


| void 

MSort( ElementType A[ ], ElementType TmpArray[ ]. 
int Left, int Right ) 

{ 


‘int Center; 
if( Left < Right ) 


Center = ( Left + Right ) / 2: 

MSort( A, TmpArray, Left, Center ): 

MSort( A, TmpArray, Center + 1, Right ); 
Merge( A, TmpArray, Left, Center + 1, Right ); 


$ 


void 
Mergesort( ElementType A[ ], int N ) 
{ 


ElementType *TmpArray; 


TmpArray = malloc( N * sizeof( ElementType ) ); 
if TmpArray !- NULL ) 
[ 

MSort( A, TmpArray, 0, N - 1); 

free( TmpArray ); 
) 
else 
FatalError( "No space for tmp array!!!" ); 








图 7-9 归并 排序 例 程 


Merge 例 程 是 精妙 的 。 如 果 对 Merge 的 每 个 递归 调用 均 局 部 声明 一 个 临时 数组 ,那么 在 
任 一 时 刻 就 可 能 有 log N 个 临时 数组 处 在 活动 期 , 这 对 于 小 内 存 的 机 器 则 是 致命 的 。 另 一 方 
面 , 如 果 Merge 例 程 动态 分 配 并 释放 最 小 量 临时 内 存 , 那么 由 malloc 占用 的 时 间 会 很 多 。 严 
密 测试 指出 , 由 于 Merge 位 于 MSort 的 最 后 一 行 , 因此 在 任 一 时 刻 只 需要 一 个 临时 数组 活 
动 , 而 且 可 以 使 用 该 临时 数组 的 任意 部 分 ; 我 们 将 使 用 与 输入 数组 A 相同 的 部 分 , 这 就 达到 
本 节 末 尾 描 述 的 改进 。 图 7-10 实现 了 这 个 Merge 例 程 。 
7.6.1 归并 排序 的 分 析 
归并 排序 是 用 于 分 析 递归 例 程 方法 的 经 典 实例 : 我 们 必须 给 运行 时 间 写 出 一 个 递归 关 
A 假设 N 是 2 AYRE, 从 而 我 们 总 可 以 将 它 分 裂 成 均 为 偶数 的 两 部 分 。 对 于 N = 1, 归并 
排序 所 用 时 间 是 常数 , 我 们 将 记 为 1。 否则 , 对 N 个 数 归并 排序 的 用 时 等 于 完成 两 个 大 小 为 
N7 2 的 递归 排序 所 用 的 时 间 再 加 上 合并 的 时 间 , 它 是 线性 的 。 下 述 方程 给 出 准确 的 表示 : 
TU) = 1 
T(N) = 2T(N/2) + N 
这 是 一 个 标准 的 递归 关系 , 它 可 以 用 多 种 方法 求解 。 我 们 将 介绍 两 种 方法 。 第 一 种 方法 是 用 
N 去 除 递归 关系 的 两 边 ,你 很 快 就 会 发 现 这 么 做 的 理由 。 相 除 后 得 到 


T(N) . TCN/2) ,1 
N ^ N/2 


该 方程 对 2 的 寡 的 任意 的 N 是 成 立 的 , 我 们 还 可 以 写成 


T(N/2)_T(NA) , | 
N/2 NA 
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| /* Lpos = start of left half, Rpos = start of right half */ 


void 
Merge( ElementType A[ J, ElementType TmpArray[ }, 
: int Lpos, int Rpos, int RightEnd ) 


int i, LeftEnd, NumElements, TmpPos: 


| LeftEnd = Rpos - 1; 

| TmpPos = Lpos; 

| NumElements = RightEnd - Lpos + 1; 
| 


/* main loop */ 
while( Lpos <= LeftEnd && Rpos <= RightEnd ) 
if( AL Lpos ] <= AL Rpos ] ) 
TmpArray( TmpPos++ ] = A[ Lpos++ 1; 
else 
TmpArray[ TmpPos++ ) = AL Rpos++ }; 


while Lpos <= Lefténd ) /* Copy rest of first half */ 

| TmpArray[ TmpPos++ ] = AL Lpos++ Ji 

while( Rpos <= RightEnd ) /* Copy rest of second half */ 
TmpArray[ TmpPos++ ] = AC Rpos++ ]: 





/* Copy TmpArray back */ 
for( i = 0; i < NumElements; i++, RightEnd-- ) 
AL RightEnd ] = TmpArray[ RightEnd ]; I 
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T(NA) _ TINA) ,| 
N/A NB 


TQ).T(OD,, 
2 1 
将 所 有 这 些 方程 相 加 , 就 是 说 ， 将 等 号 左边 的 所 有 各 项 相 加 并 使 结果 等 于 右边 所 有 各 项 的 
和 。 项 T(N/2)AN/2) 出 现在 等 号 两 边 可 以 消去 。 事实 上 , 实际 出 现在 两 边 的 项 均 被 消 


去 ,我 们 称 之 为 个 缩 (telescoping) 求 和 。 在 所 有 的 加 法 完成 之 后 ,最 后 的 结果 为 
TIN) -TU Lie N 
N 1 5 


这 是 因为 所 有 其 余 的 项 都 被 消去 了 而 方程 的 个 数 是 log N 个 ,故而 将 各 方程 末尾 的 1 相 加 起 
来 得 到 log N。 再 将 两 边 同 乘 以 N, 我 们 得 到 最 后 的 答案 
T(N) = N log N + N = O(N log N) 

注意 , 假如 我 们 在 求解 开始 时 不 是 通 除 以 N、 AARAA ARA TE PAE 这 就 是 为 
什么 我 们 要 通 除 以 N 的 缘故 。 

另 一 种 方法 是 在 右边 连续 地 代入 递归 关系 。 我 们 得 到 

T(N) = 2T(N2) + N 
既然 我 们 可 以 将 N 2 代入 到 上 面 的 方程 中 
2T(N2) = 2(2(T(N/4)) + N22) = 4T(NA)+ N 


因此 得 到 
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T(N) = 4T(NA)+2N 
再 将 代入 到 上 面 的 等 式 中 去 , 我 们 看 到 
4T(N/4) = AQT(N/8) * N/4) = 8T(N/8) + N 
因此 我 们 有 
T(N) = 8T(N/8) + 3N 
将 这 种 方式 继续 下 去 , 得 到 
T(N) = 2T(N2') +heN 
利用 A = log N, 我 们 得 到 
T(N) = NT(1) + NlggN - NlgN+N 

选择 使 用 哪 种 方法 是 风格 问题 。 第 一 种 方法 引起 一 些 琐碎 的 工作 , 把 它 写 到 一 张 标准 的 
8 lx 11 的 纸 上 可 能 更 好 , 这 样 会 少 出 些 数学 错误 , 不 过 需要 用 到 一 定 的 经 验 。 第 二 种 方法 
更 偏重 于 使 用 蛮 力 进行 计算 。 

回忆 我 们 已 经 假设 N = 24。 分 析 可 以 更 加 精细 以 处 理 N 不 是 2 的 罕 的 情形 。 事 实 上 ， 
答案 几乎 是 一 样 的 (通常 出 现 的 就 是 这 样 的 情形 )- 

虽然 归并 排序 的 运行 时 间 是 O(N log N), 但 是 它 很 难 用 于 主 存 排序 . 主要 问题 在 于 合 
并 两 个 排序 的 表 需 要 线性 附加 内 存 , 在 整个 算法 中 还 要 花费 将 数据 拷贝 到 临时 数组 再 拷贝 回 
来 这 样 一 些 附 加 的 工作 , 其 结果 严重 放 慢 了 排序 的 速度 。 这 种 拷贝 可 以 通过 在 递归 交替 层次 
时 审慎 地 转换 A 和 TmpArray 的 角色 得 到 避免 。 归 并 排序 的 一 种 变形 也 可 以 非 递归 地 实现 
( 见 练习 7.14), 但 即使 这 样 ,对 于 重要 的 内 部 排序 应 用 而 言 ， 人 们 还 是 选择 快速 排序 , 我 们 
将 在 下 一 节 描述 这 种 算法 。 不 过 , 本 章 稍 后 就 会 看 到 , 合并 的 例 程 是 大 多 数 外 部 排序 算法 的 
基石 。 


7.7 快速 排序 


正如 它 的 名 字 所 标示 的 , 快速 排序 (quicksort) 是 在 实践 中 最 快 的 已 知 排序 算法 ， 它 的 平 
均 运行 时 间 是 O(N log N)。 该 算法 之 所 以 特别 快 , 主要 是 由 于 非常 精炼 和 高 度 优化 的 内 部 
循环 。 它 的 最 坏 情形 的 性 能 为 O( N?), 但 稍 加 努力 就 可 避免 这 种 情形 。 虽 然 多 年 来 快速 排 
序 算法 被 认为 是 理论 上 高 度 优化 而 在 实践 中 却 不 可 能 正确 编程 的 一 种 算法 、 但 是 如 今 该 算法 
简单 易 懂 而 且 不 难 证 明 。 像 归并 排序 一 样 , 快速 排序 也 是 一 种 分 治 的 递归 算法 。 将 数组 S 排 
序 的 基本 算法 由 下 列 简单 的 四 步 组 成 : 

1. 如 果 S 中 元 素 个 数 是 0 或 1, 则 返回 。 

2. W S 中 任 一 元 素 w， 称 之 为 枢纽 元 (pivot)。 

3.48 S - lol S 中 其 余 元 素 ) 分 成 两 个 不 相交 的 集合 : S1= 1zES - lvl | noH 
S:= ilzES - lvl | Bul. 

4. 返回 1quicksort( S1) 后 , 继 随 v. 继而 quicksort( 52) 1 - 

由 于 对 那些 等 于 枢纽 元 的 元 素 的 处 理 , 第 (3) 步 分 割 的 描述 不 是 惟一 的 ， 因此 这 就 成 了 
一 个 设计 上 的 决策 。 一 部 分 好 的 实现 方法 是 将 这 种 情形 尽 可 能 有 效 地 处 理 。 直 观 地 看 , 我们 
希望 把 等 于 枢纽 元 的 大 约 一 半 的 关键 字 分 到 Si H, 而 另外 的 一 半分 到 S; 中 , 很 像 我 们 希望 
二 又 查找 树 保持 平衡 一 样 。 
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i 图 7-11 解释 快速 排序 对 一 个 数 集 的 做 法 。 这 里 的 枢纽 元 (随机 地 ) 选 为 65, 集合 中 其 余 
元 素 分 成 两 个 更 小 的 集合 。 递 归 地 将 较 小 的 数 的 集合 排序 得 到 0，13, 26, 31, 43, 57( 递 归 
法 则 3), 较 大 的 数 的 集合 类 似 处 理 , 此 时 整个 集合 的 排序 很 容易 得 到 。 











lal amd 对 大 者 的 快速 排序 
Y 
4 
N £s 
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图 7-11 说 明快 速 排序 各 步 的 例子 


应 该 清楚 该 算法 是 成 立 的 , 但 是 不 清楚 的 是 ,为 什么 它 比 归并 排序 快 。 如 同 归 并 排序 那 
EE, 快速 排序 递归 地 解决 两 个 子 问题 并 需要 线性 的 附加 工作 (第 (3) 步 )， 不 过 , 与 归并 排序 不 
同 ,这 两 个 子 问题 并 不 保证 具有 相等 的 大 小 , 这 是 个 潜在 的 隐患。 快速 排序 更 快 的 原因 在 
F, 第 (3) 步 分 割 成 两 组 实际 上 是 在 适当 的 位 置 进行 并 且 非 常 有 效 ， 它 的 高 效 弥补 了 大 小 不 
等 的 递归 调用 的 缺憾 而 且 还 有 超出 。 

迄今 为 止 ， 对 该 算法 的 描述 尚 缺 少许 多 细节 , 我 们 现在 就 来 补充 这 些 细节 。 实 现 第 (2) 
步 和 第 (3) 步 有 许多 方法 ; 这 里 介绍 的 方法 是 大 量 分 析 和 经 验 研究 的 结果 ， 它 代表 实现 快速 
排序 的 非常 有 效 的 方法 ， 哪怕 即使 是 对 该 方法 最 微小 的 偏差 都 可 能 引起 意 想不到 的 不 良 
结果 。 
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7.7.1 选取 枢纽 元 

虽然 上 面 描述 的 算法 无 论 选择 哪个 元 素 作 为 枢纽 元 都 能 完成 排序 工作 , 但 是 有 些 选择 显 
然 更 优 。 

一 种 错误 的 方法 

通常 的 、 没有 经 过 充分 考虑 的 选择 是 将 第 一 个 元 素 用 作 枢 纽 元 。 如 果 输 入 是 随机 的 , 那 
么 这 是 可 以 接受 的 , 但 是 如 果 输 入 是 预 排 序 的 或 是 反 序 的 , 那么 这 样 的 枢纽 元 就 产生 一 个 劣 
质 的 分 割 , 因为 所 有 的 元 素 不 是 都 被 划 人 Si 就 是 都 被 划 和 人 Szo EAHA, 这 种 情况 可 能 发 
生 在 所 有 的 递归 调用 中 。 实际 上 , 如 果 第 一 个 元 素 用 作 枢纽 元 而 且 输 入 是 预先 排序 的 , 那么 
快速 排序 花费 的 时 间 将 是 二 次 的 , 可 是 实际 上 却 根本 没 干 什么 事 , 这 是 相当 爆 炊 的 。 然 而 ， 
预 排序 的 输入 (或 具有 一 大 段 予 排序 数据 的 输入 ) 是 相当 常见 的 , 因此 , 使 用 第 一 个 元 素 作为 
枢纽 元 是 绝对 糟糕 的 主意 , 应 该 立即 放弃 这 种 想法 。 另 一 种 想法 是 选取 前 两 个 互 异 的 关键 字 
中 的 较 大 者 作为 枢纽 元 , 不 过 这 和 只 选取 第 一 个 元 素 作 为 枢纽 元 具有 相同 的 害处 。 不 要 使 用 
这 两 种 选取 枢纽 元 的 策略 。 

一 种 安全 的 作法 

-种 安全 的 方针 是 随机 选取 枢纽 元 。 一 般 来 说 这 种 策略 非常 安全 ,除非 随机 数 生成 器 有 
问题 ( 它 不 像 你 可 能 想像 的 那么 罕见 ), 因为 随机 的 枢纽 元 不 可 能 总 在 接连 不 断 地 产生 劣质 的 
分 割 。 另 一 方面 , 随机 数 的 生成 一 般 是 昂贵 的 , 根本 减少 不 了 算法 其 余部 分 的 平均 运行 
时 间 。 

三 数 中 值 分 割 法 (Median-of-Three Partitioning) 

-组 N 个 数 的 中 值 是 第 TN/21 个 最 大 的 数 。 枢 纽 元 的 最 好 的 选择 是 数组 的 中 值 。 不 幸 
的 是 , 这 很 难 算出 , 且 明 显 减 慢 快速 排序 的 速度 。 这 样 的 中 值 的 估计 量 可 以 通过 随机 选取 三 
个 元 素 并 用 它们 的 中 值 作为 枢纽 元 而 得 到 。 事 实 上 ， 随机 性 并 没有 多 大 的 帮助 ， 因 此 一 般 的 
做 法 是 使 用 左 端 、 右 端 和 中 心 位 置 上 的 三 个 元 素 的 中 值 作为 枢纽 元 。 例 如 , 输入 为 8，1，4， 
9, 6, 3, 5, 2, 7, 0, 它 的 左边 元 素 是 8, 右边 元 素 是 0, 中 心 位 置 (|( Left + Right) /2 J) Eft 
元 素 是 6。 于 是 枢纽 元 则 是 v = 6。 显 然 使 用 三 数 中 值 分 割 法 消除 了 玩 排序 输入 的 坏 情形 
(在 这 种 情形 下 , 这 些 分 割 都 是 一 样 的 ), 并 且 减 少 了 快速 排序 大 约 5% 的 运行 时 间 。 

7.7.2 分 割 策略 

有 几 种 分 割 策略 用 于 实践 ,但 此 处 描述 的 分 割 方法 能 够 给 出 好 的 结果 。 我 们 将 会 看 到 ， 
它 很 容易 做 错 或 产生 低 效 ,不 过 使 用 一 种 已 知 的 方法 却 是 安全 的 。 该 法 的 第 一 步 是 通过 将 枢 
纽 元 与 最 后 的 元 素 交 换 使 得 枢纽 元 离开 要 被 分 割 的 数据 段 。;i 从 第 一 个 元 素 开 始 而 j 从 倒数 
第 二 个 元 素 开始 。 如 果 最 初 的 输入 与 前 面 一 样 , 那么 下 面 的 图 表示 当前 的 状态 。 








t 1 
i i 


























我 们 暂时 假设 所 有 的 元 素 互 异 ,后 面 我 们 将 着 重 考虑 在 出 现 重复 元 素 时 应 该 怎么 办 。 作 
为 一 种 限制 性 的 情形 , 如 果 所 有 的 元 素 都 相同 、 那么 我 们 的 算法 必须 做 相应 的 工作 。 可 是 奇 


怪 的 是 , 此 时 做 错 事 却 特别 地 容易 。 
在 分 割 阶段 要 做 的 就 是 把 所 有 小 元 素 移 到 数组 的 左边 而 把 所 有 大 元 素 移 到 数组 的 右边 。 
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当然 “小 ”和 “大 ”是 相对 于 枢纽 元 而 言 的 。 

当 i 在; 的 左边 时 , 我 们 将 i 右 移 , 移 过 那些 小 于 枢纽 元 的 元 素 , 并 将 j 左 移 , 移 过 那些 
大 于 枢纽 元 的 元 素 。 当 i 和 j 停止 时 ,i 指向 一 个 大 元 素 而 j 指向 一 个 小 元 素 。 如 果 i 在 j 的 
左边 ,那么 将 这 两 个 元 素 互 换 , 其 效果 是 把 一 个 大 元 素 移 向 右边 而 把 一 个 小 元 素 移 向 左边 。 
在 上 面 的 例子 中 ,i 不 移动 , 而 j 滑 过 一 个 位 置 , 情况 如 下 图 。 





然后 我 们 交换 由 i 和 j 











指向 的 元 素 , 重复 该 过 程 直 到 i My 彼此 交错 为 止 。 








第 一 次 交换 后 
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此 时 , i 和 j 已 经 交错 ， 


故 不 再 交换 。 分 割 的 最 后 一 步 是 将 枢纽 元 与 ;所 指向 的 元 素 交换 。 











与 枢纽 元 交换 后 
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在 最 后 一 步 , 当 枢纽 元 与 i 所 指向 的 元 素 交 换 时 ,我 们 知道 在 位 置 P < i 的 每 一 个 元 素 
都 必然 是 小 元 素 , 这 是 因为 或 者 位 置 P 包含 一 个 从 它 开始 移动 的 小 元 素 , 或 者 位 置 P 上 原来 
的 大 元 素 在 交换 期 间 被 置换 了 。 类 似 的 论断 指出 , 在 位 置 P > i 上 的 元 素 必然 都 是 大 元 素 。 

我 们 必须 考虑 的 一 个 重要 的 细节 是 如 何 处 理 那些 等 于 枢纽 元 的 关键 字 。 问题 在 于 当 ; 遇 
到 一 个 等 于 枢纽 元 的 关键 字 时 ,是 否 应 该 停止 以 及 当 j 遇 到 一 个 等 于 枢纽 元 的 关键 字 时 是 否 
应 该 停止 。 直 观 地 看 ,i 和 j 应 该 做 相同 的 工作 ， 因为 否则 分 割 将 出 现 偏 向 一 方 的 倾向 。 例 
dn, 如果 停止 而 j 不 停 , 那么 所 有 等 于 枢纽 元 的 关键 字 都 将 被 分 到 S 中 。 

为 了 搞 清 怎么 办 更 好 , 我 们 考虑 数组 中 所 有 的 关键 字 都 相等 的 情况 。 如 果 i 和 j 都 停止 ， 
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那么 在 相等 的 元 素 间 将 有 很 多 次 交换 。 虽 然 这 似乎 没有 什么 意义 , 但 是 其 正面 的 效果 则 是 i 
Tij 将 在 中 间 交 错 , 因此 当 枢 纽 元 被 替代 时 ,这 种 分 割 建立 了 两 个 几乎 相等 的 子 数组 。 归 并 
排序 分 析 告 诉 我 们 , 此 时 总 的 运行 时 间 为 O(N log N)。 

An i 和 j 都 不 停止 , 那么 就 应 该 有 相应 的 程序 防止 ; 和 j 越 出 数组 的 界限 , 不 进行 交换 
的 操作 。 员 然 这 样 似乎 不 错 , 但 是 正确 的 实现 方法 却 是 把 枢纽 元 交换 到 i 最 后 到 过 的 位 置 ， 
这 个 位 置 是 倒数 第 二 个 位 置 (或 最 后 的 位 置 , 这 依赖 于 精确 的 实现 方法 )。 这 样 的 做 法 将 会 产 
生 两 个 非常 不 均衡 的 子 数 组 。 如 果 所 有 的 关键 字 都 是 相同 的 , 那么 运行 时 间 则 是 O( N?)。 
对 于 预 排序 的 输入 而 言 , 其 效果 与 使 用 第 一 个 元 素 作为 枢纽 元 相同 。 它 花费 的 时 间 是 二 次 的 
可 是 却 什么 事 也 没 干 ! 

这 样 我 们 就 发 现 , 进行 不 必要 的 交换 建立 两 个 均衡 的 子 数组 要 比 蛮 干 冒险 得 到 两 个 不 均 
衡 的 子 数 组 好 。 因 此 , 如 果 i 和 ji 遇 到 等 于 枢纽 元 的 关键 字 , 那么 我 们 就 让 i 和 j 都 停止 。 对 
于 这 种 输入 , 这 实际 上 是 不 花费 二 次 时 间 的 四 种 可 能 性 中 惟一 的 一 种 可 能 。 

PREK, 过 多 考虑 具有 相同 元 素 的 数组 似乎 有 些 愚 塞 。 难 道 有 人 偏 要 对 S 000 个 相同 
的 元 素 排序 吗 ? 为什么? 我 们 记得 , 快速 排序 是 递归 的 。 设 有 100 000 个 元 素 , 其 中 有 5 000 
个 是 相同 的 。 最 后 , 快速 排序 将 对 这 S 000 个 元 素 进行 递归 调用 。 此 时 , 真正 重要 的 在 于 确 
保 这 5 000 个 相同 的 元 素 能 够 被 有 效 地 排序 。 
7.7.3 小 数组 

对 于 很 小 的 数组 ( N 志 20) , 快速 排序 不 如 插 人 排序 好 。 不 仅 如 此 , 因为 快速 排序 是 递归 
的 , 所 以 这 样 的 情形 还 经 常 发 生 。 通 常 的 解决 方法 是 对 于 小 的 数组 不 递归 地 使 用 快速 排序 、 
而 代 之 以 诸如 插入 排序 这 样 的 对 小 数组 有 效 的 排序 算法 。 使 用 这 种 策略 实际 上 可 以 节省 大 约 
15% (相对 于 自始至终 使 用 快速 排序 时 ) 的 运行 时 间 。 一 种 好 的 截止 范围 (cutoff range) 是 N 
= 10, 虽然 在 5 到 20 之 间 任 一 截止 范围 都 有 可 能 产生 类 似 的 结果 。 这 种 做 法 也 避免 了 一 些 
有 害 的 特殊 情形 , 如 取 三 个 元 素 的 中 值 而 实际 上 却 只 有 一 个 或 两 个 元 素 的 情况 。 
7.7.4 实际 的 快速 排序 例 程 

快速 排序 的 驱动 程序 见 图 7- 12。 





void 
Quicksort( ElementType A[ ], int N ) 


Qsort( A, 0, N - 25 
) 








图 7-12 快速 排序 的 驱动 程序 





这 种 例 程 的 一 般 形式 将 是 传递 数组 以 及 被 排序 数组 的 Left (598) Al Right HW) c 
要 处 理 的 第 一 个 例 程 是 枢纽 元 的 选取 。 选 到 枢纽 元 最 容易 的 方法 是 对 A[L Left], ACRight ]、 
Al Center ] 适 当地 排序 。 这 种 方法 还 有 额外 的 好 处 ， 即 该 三 元 素 中 的 最 小 者 被 分 在 ALLeft ]、 
而 这 正 是 分 割 阶段 应 该 将 它 放 到 的 位 置 。 三 元 素 中 的 最 大 者 被 分 在 ALRight ], 这 也 是 正确 
的 位 置 , 因为 它 大 于 枢纽 元 。 因 此 , 我 们 可 以 把 枢纽 元 放 到 A (Right -1 并 在 分 割 阶段 将 ; 
和 j 初始 化 到 Left + 1 和 Right - 2。 因 为 ALLeft] 比 枢纽 元 小 ， 所 以 将 它 用 作 j 的 警戒 标 
记 , 这 是 另 一 个 好 处 。 因 此 , 我 们 不 必 担 心 j 越界 。 由 于 i 将 停 在 那些 等 于 枢纽 元 的 关键 字 
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处 , 故 将 枢纽 元 存储 在 AC Right ~ 1), 将 提供 一 个 警戒 标记 。 图 7-13 中 的 程序 进行 三 数 中 


值 分 割 , 它 具 有 所 描述 的 所 有 附加 的 作用 -。 似乎 使 用 实际 上 不 对 AL Left 
[Center ] 排 序 的 方法 计算 枢纽 元 只 不 过 效率 稍微 降低 一 


练习 7.38)。 











{ 





/* Return median of Left, Center, and Right */ 
/* Order these and hide the pivot */ 


ElementType 
Median3( ElementType A[ ], int Left, int Right ) 


int Center = ( Left + Right ) / 2; 


if( AL Left ] > AL Center ] ) 
Swap( &A[ Left ], &A[ Center ] ); 
AL Left ] > AL Right ] ) 
Swap( &A[ Left ], &A[ Right 2 ); 
if( AL Center ] > AL Right ] ) 

Swap( &AL Center }, &AL Right 2 2: 


if 


/* Invariant: AL Left ] <= A[ Center ] <= A[ Right ) */ 


Swap( &A[ Center J, &A[ Right - 1 ] ); /* Hide pivot */ 
return A[ Right - 1); /* Return pivot */ 








图 7-13 实现 三 数 中 值 分 割 方法 的 程序 





yes) 
PEU 
EU 
ftn 
DE 
/* 6n 
DES 
t8 
9 
/710*/ 
jns; 
fn 


/*13*/ 


define Cutoff ( 3 ) 


void 
Qsort( ElementType A[ ], int Left, int Right ) 
1 

int d. j; 

ElementType Pivot; 


if( Left + Cutoff <= Right ) 
{ 


Pivot = Median3( A, Left, Right ); 
i = Left; j = Right - 1; 

forC i i) 

{ 


whileC AL ++i J < Pivot ){ } 
while( AL --j ] > Pivot ){ ] 
if( 1 <5) 

SwapC &AL i J, 4 j 2: 
else 

break; 


) 
Swap( &A[ i ], &A[ Right - 1] ); /* Restore pivot */ 


Qsort( A, Left, i - 1); 
QsortC A, i + 1, Right 2; 


) 
else /* Do an insertion sort on the subarray */ 
InsertionSort( A + Left, Right - Left + 1); 








图 7-14 快速 排序 的 主 例 程 


~ AL Right], A 
但 是 很 奇怪 , 这 将 产生 坏 结果 ( 见 


图 7-14 的 程序 是 快速 排序 真正 的 核心 。 它 包括 分 割 和 递归 调用 。 这 里 有 几 件 事 值得 注 
意 。 第 3 行将 ; 和 j 初始 化 为 比 它们 的 正确 值 超出 1, 使 得 不 存在 需要 考虑 的 特殊 情况 。 此 
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处 的 切 始 化 依赖 于 三 数 中 值 分 割 法 有 一 些 附 加 作用 的 事实 ; 如 果 按 照 简单 的 枢纽 元 策略 使 用 
该 程序 而 不 进行 修正 , 那么 这 个 程序 是 不 能 正确 运行 的 , 原因 在 于 ; 和 j 开始 于 错误 的 位 置 
而 不 再 存在 j 的 警戒 标志 。 

第 8 行 的 Swap 为 了 速度 上 的 考虑 有 时 显 式 写 出 。 为 使 算法 速度 快 , 需要 人 迫使 编译 器 以 
直接 插 人 的 方式 编译 这 些 代码 。 为 此 需要 , 许多 编译 器 都 将 自动 这 么 做 , 但 对 于 不 这 么 做 的 
编译 器 ,差别 可 能 很 明显 。 

最 后 , 从 第 5 行 和 第 6 行 可 看 出 为 什么 快速 排序 这 么 快 。 算 法 的 内 部 循环 由 一 个 增 LAC 
1 运算 ( 它 很 快 )、 一 个 测试 , 以 及 一 个 转移 组 成 。 该 算法 没有 像 在 归并 排序 中 那样 的 额外 技 
巧 , 不 过 , 这 个 程序 仍然 出 奇 地 复杂 。 令 人 感 兴趣 的 是 将 第 3 行 到 第 9 行 用 图 7-15 中 列 出 的 
语句 代替 ,这 是 不 能 正确 运行 的 , 因为 若 A[i] = AD] = Pivot 则 会 产生 一 个 无 限 循环 。 





/* 3*/ i = Left +1; j = Right - 2; 
[t8 for( 3) 
{ 





Jer whileC AL i ] < Pivot ) i++; 

/* 6 white AL j ] > Pivot ) j- 

As TH if( i<j) 

/* 8*/ Swap( &A[ 1 J, &AL j 12: 
else 

ye 9 break; 


) 








图 7-15 对 快速 排序 小 的 改动 , 它 将 中 断 该 算法 


7.7.5 快速 排序 的 分 析 

正如 归并 排序 那样 ,快速 排序 也 是 递归 的 ， 因 此 , 它 的 分 析 需 要 求解 一 个 递 推 公式 。 我 
们 将 对 快速 排序 进行 这 种 分 析 , 假设 有 一 个 随机 的 枢纽 元 (不 用 三 数 中 值 分 割 法 )， 对 一 些小 
的 文件 也 不 使 用 截止 范围 。 和 归并 排序 一 样 , 取 T(0) = TA) = 1, 快速 排序 的 运行 时 间 
等 于 两 个 递归 调用 的 运行 时 间 加 上 花费 在 分 割 上 的 线性 时 间 ( 枢 纽 元 的 选取 仅 花费 常数 时 
间 )。 我 们 得 到 基本 的 快速 排序 关系 : 


T(N)- TU) * TON- i - 1) *eN (7.1) 
其 中 , i = SiE S 中 的 元 素 个 数 。 我 们 将 考察 三 种 情况 。 
最 坏 情况 的 分 析 
枢纽 元 始终 是 最 小 元 素 。 此 时 i = 0, 如 果 我 们 忽略 无 关 紧 要 的 TO) = 1, 那么 递 推 关系 为 
T(N)=T(N-1)+cN,N>1 (7.2) 
反复 使 用 方程 (7.2), 我 们 得 到 
T(N-1)=T(N-2)+e(N-1) (7.3) 
T(N-2)= T(N-3) * (N-2) (7.4) 
T(2)= TQ) + c(2) (7.5) 


将 所 有 这 些 方程 相 加 , 得 到 
T(N) = TQ) + ce2i= O(N’) (7.6) 
这 正 是 我 们 前 面 宣布 的 结果 。 
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最 好 情况 的 分 析 
在 最 好 的 情况 下 , 枢纽 元 正好 位 于 中 间 。 为 了 简化 数学 推导 , 我 们 假设 两 个 子 数 组 恰好 
各 为 原 数组 的 一 半 大 小 ,虽然 这 会 给 出 稍微 过 高 的 估计 , 但 是 由 于 我 们 只 关心 大 O 答案 , A 
此 结果 还 是 可 以 接受 的 。 
T(N)=2T(N/2) * cN (7.7) 
用 N 去 除 方程 (7.7) 的 两 边 ， 


TIN) _T(N/2 
TOM) TN +e (7.8) 


我 们 反复 套用 这 个 方程 , 得 到 


T(N/2)_ TINA 
We UNA +: 7.9) 


TINA N 
INAT (NA te (7.10) 


IDI., (an 


将 从 (7.7) 到 (7.11) 的 方程 加 起 来 , 并 注意 到 它们 共有 log N 个 , 于 是 
TOD TD + cogN (7.12) 


由 此 得 到 
T(N) = cNlogN + N= O(NlogN) (7.13) 

注意 , 这 和 归并 排序 的 分 析 完全 相同 , 因此 , 我 们 得 到 相同 的 答案 。 
平均 情况 的 分 析 

这 是 最 难 的 部 分 。 对 于 平均 情况 , 我 们 假设 对 于 S1, 每 一 个 文件 大 小 都 是 等 可 能 的 , 因 
此 每 个 大 小 均 有 概率 1AN。 这 个 假设 对 于 我 们 这 里 的 枢纽 元 选取 和 分 割 方法 实际 上 是 合理 
的 , 不 过 , 对 于 某 些 其 他 情况 它 并 不 合理 。 那 些 不 保持 子 文件 (subfile) 随 机 性 的 分 割 方 法 不 
能 使 用 这 种 分 析 方法 。 有 趣 的 是 , 这 些 方法 看 来 导致 程序 在 实际 运行 中 花费 更 长 的 时 间 。 


由 该 假设 可 知 ,，T(i)( 从 而 TON 一 i- 1)) 的 平均 值 为 (1AN) STU) 。 此 时 方程 
(7.1) 变 成 
T(N) = 2S ray] av (7.14) 
如 果 用 N 乘 以 方程 (7.14), 则 有 ih 
vro) = 2L X ro») ev? (7.15) 
我 们 需要 除去 求 和 符号 以 简化 计算 。 注 意 ， 我 们 可 以 再 套用 一 次 方程 (7.15), 得 到 
(N - DTUN - D -2[ S rp] c - 1 (7.16) 
若 从 (7.15) 碱 去 (7.16), 则 得 到 = 
NT(N)-(N-DT(N-1) -2T(N- D +2cN~ c Lisi?) 


移 项 、 合 并 并 除去 右边 无 关 紧 要 的 项 -c , RMB 
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NT(N) - NX D TUN - 1) +2cN (7.18) 
现在 有 了 一 个 只 用 TON - DËR TON) WAR. HARBOR ES, 不 过 方程 
(7.18) 的 形式 不 适合 。 为 此 , 用 N(N +1) 除 方程 (7. 18): 


TIN) _ T(N- 
BE WT Li aR 
TOL-D. TIN =2) 26 (7.20) 
T(N- T(N- 
ee E 7.21) 
TQ). TA) , 2¢ (7.22) 
将 方程 (7.19) 到 (7.22) 相 加 , 得 到 
TIN) _ TA) 5.804 
N+i= 2 ted; (7.23) 


该 和 大 约 为 log(N + 1) + 一 学 ,其 中 090.577 叫做 欧 拉 常 数 (Euler's constant) ,于 是 


FN) = O(logN) (7.24) 
从 而 
T(N) = O( NlogN) (7.25) 


虽然 这 里 的 分 析 看 似 复杂 , 但 是 实际 上 并 不 复杂 一 一 一 旦 你 看 出 某 些 递 推 关系 ， 这些 步 
又 是 很 自然 的 。 该 分 析 实 际 上 还 可 以 再 进一步 。 上 面 描述 的 高 度 优化 的 形式 也 已 经 被 分 析 
b, 结果 的 获得 非常 困难 , 涉及 到 一 些 复杂 的 递归 和 高 深 的 数学 。 相 等 关键 字 的 影响 也 已 仔 
细 地 进行 了 分 析 , 实际 上 所 介绍 的 程序 就 是 这 么 做 的 。 

7.7.6 选择 的 线性 期 望 时 间 算 法 

可 以 修改 快速 排序 以 解决 选择 问题 (selection problem), 这 种 问题 我 们 在 第 1 章 和 第 6 章 
已 经 看 到 。 当 时 ,通过 使 用 优先 队列 , 我 们 能 够 以 时 间 O(N + k log N) 找 到 第 k 个 最 大 
(最 小 ) 元 。 对 于 查找 中 值 的 特殊 情况 , 它 给 出 一 个 O(N log N) 算 法 。 

由 于 我 们 能 够 以 O(N log N) 时 间 给 数组 排序 , 因此 可 以 期 望 为 选择 问题 得 到 一 个 更 好 
的 时 间 界 。 我 们 介绍 的 查找 集合 S 中 第 个 最 小 元 的 算法 几乎 与 快速 排序 相同 。 事实 上 , 其 
前 三 步 是 一 样 的 。 我 们 将 把 这 种 算法 叫做 快速 选择 (quickselect)。 令 1Si| 为 Si 中 元 素 的 个 
数 。 快 速 选 择 的 步骤 如 下 : 

1. 如 果 |S| = 1, 那么 & = 1, 并 将 S 中 的 元 素 作为 答案 返回 。 如 果 使 用 小 数组 的 截止 
(cutoff) 方 法 且 1S1 过 CUTOFF, 则 将 S 排序 并 返回 第 k 个 最 小 元 。 

2. 选取 一 个 枢纽 元 v€ S。 

3. 将 集合 S 一 {vi 分 割 成 S M S2, 就 像 我 们 在 快速 排序 中 所 做 的 那样 。 

4. 如 果 上 过 | S11, 那么 第 个 最 小 元 必然 在 Sy 中 。 在 这 种 情况 下 ， 返回 quickselect 
(Si, &). 如果 = 1 + 1S1|, 那么 枢纽 元 就 是 第 个 最 小 元 , 我 们 将 它 作为 答案 返回 。 否 
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W, AR k 个 最 小 元 就 在 S 中 , 它 是 SS 中 的 第 (4 一 1S1| — 1) 个 最 小 元 。 我 们 进行 一 次 递 
归 调 用 并 返回 quickselect (S2, k - |S1) — 1)。 

与 快速 排序 对 比 , 快速 选择 只 做 了 一 次 递归 调用 而 不 是 两 次 。 快 速 选择 的 最 坏 情 况 和 快 
速 排序 的 相同 , 也 是 O(N2)。 直 观看 来 , 这 是 因为 快速 排序 的 最 坏 情况 发 生 在 S, 和 S: 有 
一 个 是 空 的 时 候 ; 于 是 , 快速 选择 也 就 不 是 真 的 节省 一 次 递归 调用 。 不 过 , 平均 运行 时 间 是 
O(N)。 具 体 分 析 类 似 于 快速 排序 的 分 析 , 我 们 将 它 留 作 一 道 练习 题 。 

快速 选择 的 实现 甚至 比 抽象 的 描述 还 要 简单 ,其 程序 见 图 7-16。 当 算法 终止 时 , 第 上 个 
最 小 元 就 在 位 置 k 上 。 这 破坏 了 原来 的 排序 ; 如 果 不 希 望 这 样 , 那么 需要 做 一 份 拷贝 。 








/* Places the kth smallest element in the kth position */ 
/* Because arrays start at 0, this will be index k-1 */ 
void 
Qselect( ElementType A[ ], int k, int Left, int Right ) 
t 
int i, j; 
ElementType Pivot: 
far ifC Left + Cutoff <= Right ) 
( 
DESI Pivot = Median3( A, Left, Right ); 
/* 3*/ j = Left; j = Right - l; 
/* an forC ii 
[ 
[se whileC AL ++i ] < Pivot ){ ) 
/* 6*/ whileC AL --j ] > Pivot D{ } 
IT dfCi ej) 
/* 8*/ Swap( &A[ i J, BAL j 1: 
else 
/*95 break; 
) . 
/*10*/ Swap( &AL 1 J, &A[ Right - 1 ] ); /* Restore pivot */ 
pun dfCk <= 1) 
/el12w/ Qselect( A, k, Left, i - 19); 
fn else if k » 141) 
sary Qselect( A, k, i + 1, Right ); 
+ 
else /* Do an insertion sort on the subarray */ 
/n5*/ InsertionSort( A + Left, Right - Left + 1); 
) 











图 7-16 快速 选择 的 主 例 程 


使 用 三 数 中 值 选取 枢纽 元 的 方法 使 得 最 坏 情况 发 生 的 机 会 几乎 是 微不足道 的 。 然 而 , 通 
过 仔细 选择 枢纽 元 , 我 们 可 以 消除 二 次 的 最 坏 情况 而 保证 算法 是 O(N) 的 。 可 是 这 么 做 的 额 
外 开销 是 相当 大 的 , 因此 最 终 的 算法 主要 在 于 理论 上 的 意义 。 在 第 10 章 我 们 将 考查 选择 问 
题 的 线性 时 间 最 坏 情形 算法 , 我们 还 将 看 到 选取 枢纽 元 的 一 个 有 趣 的 技巧 ， 它 使 得 选择 算法 
在 实践 中 多 少 要 快 一 些 。 
7.8 大 型 结构 的 排序 


关于 排序 的 全 部 讨论 , 我 们 已 经 假设 要 被 排序 的 元 素 是 一 些 简单 的 整数 。 常 常 需 要 通过 
某 个 关键 字 对 大 型 结构 进行 排序 。 例 如 , 我 们 可 能 有 一 些 工资 名 单 的 记录 ， 每 个 记录 由 姓 
名 、 地 址 、 电话 号 码 、 诸如 工资 这 样 的 财务 信息 、 以 及 税务 信息 组 成 。 我 们 可 能 想 要 通过 一 
个 特定 的 域 , 比如 姓名 , 来 对 这 些 信息 进行 排序 。 对 于 所 有 的 算法 来 说 、 基本 的 操作 就 是 交 
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换 , 不 过 这 里 交换 两 个 结构 可 能 是 非常 昂贵 的 操作 ,因为 结构 实际 上 很 大 在 这 种 情况 下 ， 
实际 的 解法 是 让 输入 数组 包含 指向 结构 的 指针 。 我 们 通过 比较 指针 指向 的 关键 字 , 并 在 必要 
时 交换 指针 来 进行 排序 。 这 意味 着 , 所 有 的 数据 运动 基本 上 就 像 我 们 对 整数 排序 那样 进行 
我 们 称 之 为 间接 排序 (indirect sorting); 可 以 使 用 这 种 方法 处 理 我 们 已 经 描述 过 的 大 部 分 数据 
结构 。 这 证 明 我 们 关于 复杂 数据 结构 处 理 时 不 必 大 量 牺牲 效率 的 假设 是 正确 的 。 


7.9 排序 的 一 般 下 界 


虽然 我 们 得 到 一 些 O(N log N) 的 排序 算法 . 但 是 , 尚 不 清楚 我 们 是 否 还 能 做 得 更 好 
本 节 我 们 证 明 , 任何 只 用 到 比较 的 算法 在 最 坏 情况 下 需要 Q(N log N) 次 比较 (从 而 QN 
log N) 的 时 间 ), 因此 归并 排序 和 堆 排 序 在 一 个 常数 因子 范围 内 是 最 优 的。 该 证 明 可 以 进 一 
步 证 明 即 使 是 在 平均 情况 下 , 只 用 到 比较 的 任意 排序 算法 都 需要 进行 Q(N log N) 次 比较 
这 意味 着 , 快速 排序 在 相差 一 个 常数 因子 的 范围 内 平均 是 最 优 的 。 

特别 地 ,我 们 将 证 明 下 列 结果 : 只 用 到 比较 的 任何 排序 算法 在 最 坏 情况 下 都 需要 
fiog(N1)] 次 比较 并 平均 需要 log N1) 次 比较 。 我 们 将 假设 ,所 有 N 个 元 素 是 互 异 的 , 因为 
任何 排序 算法 都 必须 要 在 这 种 情况 下 正常 运行 
7.9.1 决策 树 

决策 树 (decision tree) 是 用 于 证 明 下 界 的 抽象 概念 。 在 我 们 这 里 , 决策 树 是 一 棵 二 又 树 
每 个 节点 表示 在 元 素 之 间 一 组 可 能 的 排序 , 它 与 已 经 进行 的 比较 一 致 。 比 较 的 结果 是 树 
的 边 。 

图 7-17 中 的 决策 树 表 示 将 三 个 元 素 a. b 和 c 排序 的 算法 。 算 法 的 初始 状态 在 根 处 
(我 们 将 可 互 换 地 使 用 术语 状态 和 节点 -) 没 有 进行 比较 , 因此 所 有 的 顺序 都 是 合法 的 。 这 个 
特定 的 算法 进行 的 第 一 次 比较 是 比较 和 6。 两 种 比较 的 结果 导致 两 种 可 能 的 状态 。 如 果 
a € b, 那么 只 有 三 种 可 能 性 被 保留 。 如 果 算法 到 达 节点 2, 那么 它 将 比较 a 和 c。 其 他 算法 
可 能 会 做 不 同 的 工作 ; 不 同 的 算法 可 能 有 不 同 的 决策 树 。 若 a Doc. 则 算法 进入 状态 5。 由 
于 只 存在 一 种 顺序 , 因此 算法 可 以 终止 并 报告 它 已 经 完成 了 排序 。 若 a < c. 则 算法 尚 不 能 
终止 ,因为 存在 两 种 可 能 的 顺序 , 它 还 不 能 肯定 哪 种 是 正确 的 。 在 这 种 情况 下 ,算法 还 将 再 
需要 一 次 比较 。 

通过 只 使 用 比较 进行 排序 的 每 一 种 算法 都 可 以 用 决策 树 表示 。 当 然 , 只 有 输入 数据 非常 
少 的 情况 画 决策 树 才 是 可 行 的 。 由 排序 算法 所 使 用 的 比较 次 数 等 于 最 深 的 树叶 的 深度 。 在 我 
们 的 例子 中 , 该 算法 在 最 坏 的 情况 下 使 用 了 三 次 比较 。 所 使 用 的 比较 的 平均 次 数 等 于 树叶 的 
平均 深度 。 由 于 决策 树 很 大 , 因此 必然 存在 一 些 长 的 路 径 。 为 了 证 明 下 界 ， 需 要 证 明 某 些 基 
本 的 树 性 质 。 

引 理 7.1 

令 工 是 深度 为 d 的 二 叉 树 , 则 工 最 多 有 2 个 树叶 。 

证 明 : 

用 数学 归纳 法 证 明 。 如 果 d = 0, 则 最 多 存在 一 个 树叶 , 因此 基准 情况 为 真 。 否则 , 存 
在 一 个 根 , 它 不 可 能 是 树叶 , 其 左 子 树 和 右 子 树 中 每 一 个 的 深度 最 多 是 d ~ 1。 由 归纳 假 
d. 每 一 棵 子 树 最 多 有 24-! 个 树叶 ， 因 此 总 数 最 多 有 2° 个 树叶 。 这 就 证 明了 该 引 理 。 
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图 7-17 三 元 素 排序 的 决策 树 


引 理 7.2 

具有 上 片 树叶 的 二 又 树 的 深度 至 少 是 [log L]o 

证 明 ; 

由 前 面 的 引 理 立即 推出 。 

定理 7.6 

只 使 用 元 素 间 比 较 的 任何 排序 算法 在 最 坏 情况 下 至 少 需 要 [log CN D) 1 次 比较 。 

WERA: 

对 N 个 元 素 排序 的 决策 树 必然 有 N1! 个 树叶 。 从 上 面 的 引 理 即 可 推出 该 定理 。 

定理 7.7 

只 使 用 元 素 间 比 较 的 任何 排序 算法 需要 进行 Q(N log N) 次 比较 。 

证 明 ; 

由 前 面 的 定理 可 知 , 需要 log N!) 次 比较 。 

log (N!) = log (N (N - D (N - 2) ...(2) (1D)) 
= log N + log(N — 1) + log (N - 2) + ... + log2 + log1 
> log N + log (N - 1) + log(N - 2) * ... + log N2 
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这 种 类 型 的 下 界 论 断 ， 当 用 于 证 明 最 坏 情形 结果 时 ， 有 时 叫做 信息 -理论 (information- 
theoretic) 下 界 。 一 般 定理 说 的 是 , 如 果 存 在 已 种 不 同 的 情况 要 区 分 ,而 问题 是 YES/NO 的 
形式 , 那么 通过 任何 算法 求解 该 问题 在 某 种 情形 下 总 需要 [log P 1 个 问题 。 对 于 任何 基于 比 
较 的 排序 算法 的 平均 运行 时 间 , 证 明 类 似 的 结果 是 可 能 的 。 这 个 结果 由 下 列 引 理 导出 , 我 们 
将 它 留 作 练 习 : RA L 片 树叶 的 任意 二 叉 树 的 平均 深度 至 少 为 log Lo 


7.10 桶 式 排序 


虽然 我 们 在 上 一 节 证 明了 任何 只 使 用 比较 的 一 般 排序 算法 在 最 坏 情况 下 需要 运行 时 间 
A (N log N), 但 是 我 们 要 记 住 , 在 某 些 特殊 情况 下 以 线性 时 间 进 行 排序 仍然 是 可 能 的 。 

一 个 简单 的 例子 是 桶 式 排序 (bucket sorr) 。 为 使 桶 式 排序 能 够 正常 工作 , 必须 要 有 一 些 
额外 的 信息 。 输 入 数据 A1. Assess Ax 必须 只 由 小 于 M 的 正 整数 组 成 。( 显 然 还 可 以 对 其 
进行 扩充 。) 如 果 是 这 种 情况 , 那么 算法 很 简单 : 使 用 一 个 大 小 为 M 称 为 Count 的 数组 , 它 被 
初始 化 为 全 0, FRE, Count HM 个 单元 (或 称 桶 ), 这 些 桶 初始 化 为 空 。 当 读 A; BY, Count 
[A,] 增 1。 在 所 有 的 输入 数据 读 人 后 , 扫描 数组 Count, 打印 出 排序 后 的 表 。 该 算法 用 时 
O(M + N); 其 证 明 留 作 练习 。 如 果 M 为 O(N), 那么 总 量 就 是 O(NN)。 

虽然 这 个 算法 似乎 干扰 了 下 界 , 但 事实 上 并 没有 , 因为 它 使 用 了 比 简单 比较 更 为 强大 的 
操作 。 通 过 使 适当 的 桶 增值 , 算法 在 单位 时 间 内 实质 上 执行 了 一 个 M- 路 比较 。 这 类 似 于 用 
在 可 扩散 列 上 的 策略 ( 见 5.6 节 )。 显 然 这 不 属于 那 种 下 界 业已 证 明 的 模型 。 

不 过 , 该 算法 确实 提出 了 用 于 证 明 下 界 的 模型 的 合理 性 问题 。 这 个 模型 实际 上 是 一 个 强 
模型 ,因为 通用 的 排序 算法 不 能 对 于 它 可 以 预见 到 的 输入 类 型 做 假设 ,但 必须 仅仅 基于 排序 
和 息 做 一 些 决策 。 很 自然 地 , 如 果 存 在 额外 的 可 用 信息 , 我 们 应 该 有 望 找到 更 为 有 效 的 算 
法 ,否则 这 额外 的 信息 就 被 浪费 了 。 

尽管 桶 式 排序 看 似 太平 凡 用 处 不 大 ， 但 是 实际 上 却 存在 许多 其 输入 只 是 一 些小 的 整数 的 
情况 ,使 用 像 快速 排序 这 样 的 排序 方法 真 的 是 小 题 大 作 T o 


7.11 外 部 排序 


迄今 为 止 , 我 们 考查 过 的 所 有 算法 都 需要 将 输入 数据 装 和 内存。 然而 ,存在 一 些 应 用 程 
序 , 它们 的 输入 数据 量 太 大 装 不 进 内 存 。 本 节 将 讨论 一 些 外 部 排序 算法 (extemal sorting), € 
们 是 设计 用 来 处 理 很 大 的 输入 的 。 
7.11.1 为 什么 需要 新 的 算法 

大 部 分 内 部 排序 算法 都 用 到 内 存 可 直接 寻 址 的 事实 。 希 尔 排序 用 一 个 时 间 单 位 比较 元 素 
A[ 门 和 A[i - h]。 堆 排序 用 一 个 时 间 单 位 比较 元 素 A[i 和 ALi*2 + 1]。 使 用 三 数 中 
值 分 割 法 的 快速 排序 以 常数 个 时 间 单位 比较 AL Left] AL Center] 和 AT Right ]。 如 果 输 入 
数据 在 磁带 上 , 那么 所 有 这 些 操作 就 失去 了 它们 的 效率 ， 因为 磁带 上 的 元 素 只 能 被 顺序 访 
间 。 即 使 数据 在 一 张 磁盘 上 ， 由 于 转动 磁盘 和 移动 磁头 所 需 的 延迟 ， 仍然 存在 实际 上 的 效率 
损失 。 

为 了 看 到 外 部 访问 究竟 有 多 慢 , 可 建立 一 个 大 的 随机 文件 、 但 不 能 太 大 以 致 装 不 进 内 
存 。 将 该 文件 读 人 并 用 一 种 有 效 的 算法 对 其 排序 。 将 该 输入 数据 进行 排序 所 花费 的 时 间 与 将 
其 读 入 所 花费 的 时 间 相 比 必然 是 无 足 轻重 的 ， 尽管 排序 是 OCN log N) 操 作 而 读 入 数据 只 不 
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过 化 费 O(N ) 时 间 。 
7.11.2 外 部 排序 模型 

各 种 各 样 的 海量 存储 装置 使 得 外 部 排序 比 内 部 排序 对 设备 的 依赖 性 要 严重 得 多 。 我 们 将 
考虑 的 一 些 算法 在 磁带 上 工作 ,而 磁带 可 能 是 最 受 限制 的 存储 媒体 。 由 于 访问 磁带 上 一 个 元 
索 需 要 把 磁带 转动 到 正确 的 位 置 , 因此 磁带 必须 要 有 (两 个 方向 上 ) 连 续 的 顺序 才能 够 被 有 效 
地 访问 

我 们 将 假设 至 少 有 三 个 磁带 驱动 器 进行 排序 工作 。 我 们 需要 两 个 驱动 器 执行 有 效 的 排 
序 , 而 第 三 个 驱动 器 进行 简化 的 工作 。 如 果 只 有 一 个 磁带 驱动 器 可 用 , 那么 我 们 则 不 得 不 
说 : 任何 算法 都 将 需要 Q(N2) 次 磁带 访问 。 
7.1.3 简单 算法 

基本 的 外 部 排序 算法 使 用 归并 排序 中 的 Merge PURE. RTA, Tas Taz 
Ta Ty, 它们 是 两 盘 输入 磁带 和 两 盘 输 出 磁带 。 根 据 算法 的 特点 ,磁带 a 和 磁带 6 要 么 用 
作 输 入 磁带 , 要么 用 作 输 出 磁带 。 设 数据 最 初 在 Tat, 并 设 内 存 可 以 一 次 容纳 (和 排序 ) M. 
个 记录 。 一 种 自然 的 做 法 是 第 一 步 从 输入 磁带 一 次 读 人 M 个 记录 , 在 内 部 将 这 些 记录 排序 ， 
然后 再 把 这 些 排 过 序 的 记录 交替 地 写 到 Ti 或 Th? 上。 我们 将 把 每 组 排 过 序 的 记录 叫做 一 个 
顺 串 (run)。 做 完 这 些 之 后 , 我 们 倒 回 所 有 的 磁带 。 设 我 们 的 输入 与 希 尔 排序 的 例子 中 的 输 
人 数据 相同 。 











35 17 99 28 58 41 75 15 











3, 那么 在 顺 串 构造 以 后 , 磁 








将 包含 下 图 所 指出 的 数据 。 





如 果 M = 
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Ts 
Ty 
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no 8 % 17 2 9% 
2 35 96 41 s 7 
































现在 TaM BAAR, BATHE AE RAE OS — FH FS AE IE 
果 写 到 T, E, 该 结果 是 一 个 二 倍 长 的 顺 串 。 然 后 , 我 们 再 从 每 盘 磁带 取出 下 一 个 顺 串 ， 合 
Jt. 并 将 结果 写 到 Toko MOR TE, OPM TaM Ta, 直到 Ti 或 了 为 空 。 此 时 ， 
或 者 Ti 和 Ts 均 为 空 , 或 者 剩 下 一 个 顺 串 。 对 于 后 者 , 我 们 把 剩 下 的 顺 训 拷 贝 到 适当 的 顺 申 
E. 将 全 部 四 盘 磁 带 倒 回 , 并 重复 相同 的 步骤, 这 一 次 用 两 盘 a 磁带 作为 输入 , 两 盘 D 磁带 
作为 输出 ,结果 得 到 一 些 4M 的 顺 串 。 我 们 继续 这 个 过 程 直 到 得 到 长 为 N 的 一 个 顺 串 。 

该 算法 将 需要 [log( N/M)1 趟 工作 ,外 加 一 趟 构造 初始 的 顺 串 。 例 如 , 若 我 们 有 1000 万 
个 记录 , 每 个 记录 128 MEW, 并 有 4 兆 字 节 的 内 存 , 则 第 一 趟 将 建立 320 个 顺 串 。 此 时 我 
们 再 需要 9 趟 以 完成 排序 。 我 们 的 例子 再 需要 [log13/31=3 趟 , 见 下 图 所 示 。 


7.11.4 多 路 合并 
如 果 我 们 有 额外 的 磁带 ,那么 我 们 可 以 减少 将 输入 数据 排序 所 需要 的 趋 数 , 通过 将 基本 


的 (2- 路 ) 合 并 扩充 为 -路 合并 就 能 做 到 这 一 点 。 
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T, | 1 2 17 28 35 51 358 75 81 94 96 99 

















T | M. 12 15 17 28 35 41 58 75 81 94 96 99 | 





























两 个 顺 串 的 合并 操作 通过 将 每 一 个 输入 磁带 转 到 每 个 顺 串 的 开头 来 完成 。 然 后 , 找到 较 
小 的 元 素 , 把 它 放 到 输出 磁带 上 , 并 将 相应 的 输入 磁带 向 前 推进 。 如 果 有 k 盘 输 入 磁带 ， 那 
么 这 种 方法 以 相同 的 方式 工作 , 惟一 的 区 别 在 于 , 它 发 现 个 元 素 中 最 小 的 元 素 的 过 程 稍微 
有 些 复杂 。 我 们 可 以 通过 使 用 优先 队列 找 出 这 些 元 素 中 的 最 小 元 。 为 了 得 出 下 一 个 写 到 磁盘 
上 的 元 素 , 我 们 进行 一 次 DeleteMin 操作 。 将 相应 的 磁带 向 前 推进 ,如 果 在 输入 磁带 上 的 顺 
串 尚 未 完成 ,那么 我 们 将 新 元 素 插 和 人 到 优先 队列 中 。 仍 然 利 用 前 面 的 例子 ,我 们 将 输入 数据 
分 配 到 三 盘 磁带 上 。 











Tmin sa 94 | 4p s 75 
m | a 35 96 | 5 
Ts | 17 28 99 




















此 时 ,我 们 还 需要 两 趟 3- 路 合并 以 完成 该 排序 。 














T, |n nm 17 28 35 8 94 96 9 
Ta | 1S 41 58 75 




















qT | 1 12 18 17 28 35 41 58 75 81 94 96 99 

















在 初始 顺 串 构造 阶段 之 后 , 使 用 k- 路 合并 所 需要 的 赵 数 为 [log:( NAM) 1, AARE 
顺 串 达到 倍 大 小 。 对 于 上 面 的 例子 ,公式 成 立 , DRE logs (13/3) 1= 2。 如 果 我 们 有 10 盘 
磁带 , 此 时 = 5, 而 前 一 节 的 大 例子 需要 的 赵 数 将 是 [logs3201= 4。 
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7.11.5 多 相合 并 

上 一 节 讨 论 的 大 路 合并 方法 需要 使 用 2k 盘 磁 带 , 这 对 某 些 应 用 极为 不 便 。 只 使 用 &+1 
盘 磁带 也 有 可 能 完成 排序 的 工作 。 作 为 例子 , 我 们 阐述 只 用 三 盘 磁 带 如 何 完成 2- 路 合并 

设 有 三 盘 磁 带 Ti T.H T. 在 T, 上 有 一 个 输入 文件 , 它 将 产生 34 个 顺 串 。 一 种 选择 
是 在 T, 和 TS 的 每 一 盘 磁带 中 放 和 人 17 个 顺 串 。 然 后 我 们 可 以 将 结果 合并 到 T, E. 得 到 一 
盘 有 17 个 顺 串 的 磁带 。 由 于 所 有 的 顺 串 都 在 一 盘 磁带 上 , 因此 我 们 现在 必须 把 其 中 的 一 些 
顺 串 放 到 T; 上 以 进行 另 一 次 的 合并 。 执 行 合并 的 逻辑 方式 是 将 前 8 个 顺 串 从 T, 拷贝 到 T; 
并 进行 合并 。 这 样 的 效果 是 对 于 我 们 所 做 的 每 一 趟 合并 又 附加 了 额外 的 半 趟 工作 。 

另 一 种 选择 是 把 原始 的 34 个 顺 串 不 均衡 地 分 成 两 份 。 设 我 们 把 21 个 顺 串 放 到 T 上 而 
把 13 个 顺 串 放 到 Ts 上 。 然 后 , 在 Ts 用 完 之 前 将 13 个 顺 串 合并 到 T, 上 。 此 时 , 我 们 可 以 
倒 回 磁带 Ti 和 T3, 然后 将 具有 13 个 顺 串 的 T, 和 8 个 顺 串 的 T, 合并 到 Ti 上 。 此 时 , 我 们 
合并 8 个 顺 串 直到 T; 用 完 为 止 , 这 样 , 在 Ti 上 将 留 下 5 个 顺 串 而 在 Ts 上 则 有 8 个 顺 串 ， 
然后 , 我 们 再 合并 T, 和 T, 等 等 。 下 面 的 图 表 显 示 在 每 趟 合并 之 后 每 盘 磁带 上 的 顺 串 的 
个 数 。 
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顺 串 最 初 的 分 配 有 很 大 的 关系 。 例 如 , 若 22 个 顺 串 放 在 T 上 , 12 个 在 Ts 上 , 则 第 一 
消 合 并 后 我 们 得 到 Ti 上 的 12 个 顺 串 以 及 T» EA 10 个 顺 串 。 在 另 一 次 合并 后 ，T! 上 有 10 
个 顺 串 而 T; 上 有 2 个 顺 串 。 此 时 , 进展 的 速度 慢 了 下 来 因为 在 Ts 用 完 之 前 我 们 只 能 合并 
两 组 顺 串 。 这 时 T 有 8 个 顺 串 而 T. 有 2 个 顺 串 。 同 样 , 我 们 只 能 合并 两 组 顺 串 ,结果 T, 
有 6 个 顺 串 且 T, 有 2 个 顺 串 。 再 经 过 三 趟 合并 之 后 , T, 还 有 2 个 顺 串 而 其 余 磁 带 均 已 没有 
任何 内 容 。 我 们 必须 将 一 个 顺 捉 拷贝 到 另外 一 盘 磁带 上 , 然后 结束 合并 。 

事实 上 , 我们 给 出 的 最 初 分 配 是 最 优 的 。 如 果 顺 串 的 个 数 是 一 个 斐 波 那 契 数 Fv， 那么 
分 配 这 些 顺 串 最 好 的 方式 是 把 它们 分 裂 成 两 个 斐 波 那 契 数 Fy -1 和 Fy 20 BW, 为 了 将 顺 串 
的 个 数 补足 成 一 个 斐 波 那 契 数 就 必须 用 一 些 旺 顺 串 (dummy run) 来 填补 磁带 。 我 们 把 如 何 将 
一 组 初始 顺 串 分 放 到 磁带 上 的 具体 做 法 留 作 练习 。 

可 以 把 上 面 的 做 法 扩充 到 大 路 合并 , 此 时 我 们 需要 第 & 阶 斐 波 那 契 数 用 于 分 配 顺 串 ， 其 
中 阶 斐 波 那 契 数 定义 为 FO(N) = FO(N - D + FP(N - 2) + + FP 
(NM - k) , 辅 以 适当 的 初始 条 件 FY(N) = 0, 0<NS<k - 2, F(R - D = le 
7.11.6 替换 选择 

最 后 我 们 将 要 考虑 的 是 顺 串 的 构造 。 迄今 我 们 已 经 用 到 的 策略 是 所 谓 的 最 简 可 能 : 读 人 
尽 可 能 多 的 记录 并 将 它们 排序 , 再 把 结果 写 到 某 个 磁带 上 。 这 看 起 来 像 是 可 能 的 最 佳 处 理 、 
直到 实现 只 要 第 一 个 记录 被 写 到 输出 磁带 上 ， 它 所 使 用 的 内 存 就 可 以 被 另外 的 记录 使 用 。 如 
果 输 入 磁带 上 的 下 一 个 记录 比 我 们 刚刚 输出 的 记录 大 ， 那么 它 就 可 以 被 放 人 这 个 顺 串 中 。 

利用 这 种 想法 , 我 们 可 以 给 出 产生 顺 串 的 一 个 算法 ， 该 方法 通常 称 为 珍 换 选择 (replace- 
ment selection)。 开 始 ，M 个 记录 被 读 入 内 存 并 被 放 到 一 个 优先 队列 中 。 我 们 执行 一 次 
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DeleteMin, 把 最 小 的 记录 写 到 输出 磁带 上 , 再 从 输入 磁带 读 入 下 一 个 记录 。 如 果 它 比 刚刚 写 
出 的 记录 大 , 那么 我 们 可 以 把 它 加 到 优先 队列 中 , 否则 , 不 能 把 它 放 人 当前 的 顺 串 。 由 于 优 
先 队 列 少 一 个 元 素 , 因此 , 我 们 可 以 把 这 个 新 元 素 存 人 优先 队列 的 死 区 (dead space). 直到 顺 
串 完成 构建 ,而 该 新 元 素 用 于 下 一 个 顺 串 。 将 一 个 元 素 存 入 死 区 的 做 法 类 似 于 在 堆 排序 中 的 
做 法 。 我 们 继续 这 样 的 步骤 直到 优先 队列 的 大 小 为 零 , 此 时 该 顺 串 构建 完成 。 我 们 使 用 死 区 
中 的 所 有 元 素 通 过 建立 一 个 新 的 优先 队列 开始 构建 一 个 新 的 顺 串 。 图 7-18 解释 我 们 正在 使 
用 的 这 个 小 例子 的 顺 串 构建 过 程 , 其 中 M =3。 死 元 素 以 星 号 标示 。 
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在 这 个 例子 中 , 替换 选择 只 产生 3 个 顺 串 ， 这 与 通过 排序 得 到 5 个 顺 串 不 同 。 正 因为 如 
Jk, 3- 路 合并 经 过 一 趟 而 非 两 趟 结束 。 如 果 输入 数据 是 随机 分 配 的 ,那么 可 以 证 明 蔡 换 选择 
产生 平均 长 度 为 2M 的 顺 串 。 对 于 我 们 所 举 的 大 例子 , 预计 为 160 个 顺 串 而 不 是 320 个 顺 
38, 因此, 5- 路 合并 需要 进行 4 趟 。 在 这 个 例子 中 , 我 们 没有 节省 一 趟 , 虽然 在 幸运 的 情况 下 
是 可 以 节省 的 , 我 们 可 能 有 125 或 更 少 的 顺 串 。 由 于 外 部 排序 花费 的 时 间 太 多 , 因此 节省 的 
每 一 趟 都 可 能 对 运行 时 间 产 生 显 著 的 影响 。 

我 们 已 经 看 到 , 有 可 能 替换 选择 做 得 并 不 比 标准 算法 更 好 。 然 而 , 输入 数据 常常 从 排序 
或 几乎 从 排序 开始 , 此 时 葵 换 选择 仅仅 产生 少数 非常 长 的 顺 串 。 这 种 类 型 的 输入 通常 要 进行 
外 部 排序 ,这 就 使 得 替换 选择 具有 特殊 的 价值 。 


总 结 


对 于 最 一 般 的 内 部 排序 应 用 程序 , 选用 的 方法 不 是 插入 排序 、 希 尔 排序 ,就 是 快速 排序 ， 
它们 的 选用 主要 是 根据 输入 的 大 小 来 决定 。 图 7-19 显示 每 个 算法 (在 一 台 相 对 较 慢 的 计算 机 
上 ) 处 理 各 种 不 同 大 小 的 文件 时 的 运行 时 间 。 

选择 N 个 整数 组 成 一 些 随机 排列 , 而 表 中 给 出 的 各 项 仅仅 是 排序 的 实际 时 间 。 图 7-2 给 
出 的 程序 用 于 插入 排序 。 希 尔 排序 使 用 7.4 节 中 的 程序 , 该 程序 改 为 使 用 Sedgewick 增 量 运 
行 。 基 于 数 以 百 万 计 次 排序 , 大 小 从 100 到 2 500 0000 不 等 ， 使 用 这 种 增 量 的 希 尔 排序 预计 
的 运行 时 间 估计 为 O(N””)。 堆 排序 例 程 与 7.5 节 中 的 相同 。 表 中 给 出 两 种 快速 排序 算法 。 








255 








194 BIE 









































Tr T 
| 插入 排序 | 硕 尔 排序 | 堆 排序 快速 排序 | 快速 排序 (优化 ) 
LN | ows | ONI | ONlogN) | OINlogN) | ONiIogN) 
| 10| 0.00044 | 000041 | 0.00057 | 000052 | 。 .00046 
100 | 0.00675 | 0.00171 | 0.00420 | 0.00284 .00244 
| 1000] 0.59564 002927 | 0.05565 0.03153 .02587 
| 1000. | 58.864 — | 0.42998 | 0.71650 | 0.36765 «31532 
| 100000! NA | s7298 | 8.859 42298 3.5882 
1900000} NA 71.164 |10468 47.065 41282 | 





图 7-19 不 同 的 排序 算法 的 比较 (所 有 的 时 间 均 以 秒 计 ) 


第 一 种 使 用 简单 的 枢纽 元 方法 ,不 进行 截止 。 幸 运 的 是 , 这 些 输入 文件 是 随机 的 。 第 二 种 使 
用 三 数 中 值 分 割 法 , 截止 范围 为 10。 进 一 步 的 优化 还 是 有 可 能 的 。 比 如 我 们 可 以 写 一 个 内 莽 
的 三 数 中 值 例 程 而 不 是 使 用 函数 调用 , 我 们 也 可 以 编写 一 个 非 递归 的 快速 排序 。 还 存在 其 他 
一 些 方法 对 代码 进行 优化 , 它们 实现 起 来 相当 复杂 , 当然 , 我 们 也 可 使 用 汇编 语言 编程 。 我 
们 已 有 打算 有 效 地 编写 所 有 的 例 程 , 不 过 , 性 能 因 机 器 不 同 当然 多 少 会 有 些 变化 

高 度 优化 的 快速 排序 算法 即使 对 于 很 少 的 输入 数据 也 能 和 和 希 尔 排 序 一 样 快 。 快 速 排序 的 
改进 算法 仍然 有 O(N2) 的 最 坏 情 况 ( 有 一 个 练习 让 你 构造 一 个 小 例子 ), 但 是 , 这 种 最 坏 情形 
出 现 的 机 会 是 如 此 地 微不足道 , 以 至 于 不 能 成 为 影响 算法 的 因素 。 如 果 需 要 对 一 些 大 型 的 文 
件 排序 , 那么 快速 排序 则 是 应 该 选用 的 方法 。 但 是 , 永远 都 不 要 图 省 事 而 轻易 把 第 一 个 元 素 
用 作 枢纽 元 。 对 输入 数据 随机 的 假设 是 不 安全 的 。 如 果 你 不 想 过 多 地 考虑 这 个 问题 , 那么 你 
就 使 用 希 尔 排 序 。 希 尔 排序 有 些小 缺陷 , 不 过 还 是 可 以 接受 的 , 特别 是 需要 简单 明了 的 时 
候 。 希 尔 排序 的 最 坏 情况 也 只 不 过 是 OCN12) 这 种 最 坏 情况 发 生 的 几率 也 是 微不足道 的 。 

堆 排序 要 比 希 尔 排序 慢 , 尽管 它 是 一 个 带 有 明显 紧凑 内 循环 的 O(N log N ) 算 法 。 对 该 
算法 的 深入 考查 揭示 , 为 了 移动 数据 , 堆 排 序 要 进行 两 次 比较 。 由 Floyd 提出 的 改进 算法 移 
动 数据 基本 上 只 需要 一 次 比较 , 不 过 实现 这 种 改进 算法 使 得 代码 多 少 要 长 一 些 。 我 们 把 它 留 
给 读者 来 决定 这 种 附加 的 编程 代价 用 以 提高 速度 是 否 值得 (练习 7.40)。 

插入 排序 只 用 在 小 的 或 是 非常 接近 排 好 序 的 输入 数据 上 。 我 们 没有 包括 进来 归并 排序 ， 
因为 它 的 性 能 对 于 主 存 排序 不 如 快速 排序 那么 好 , 而 且 它 的 编程 一 点 也 不 省 事 。 然 而 我 们 已 
经 看 到 , 合并 却 是 外 部 排序 的 中 心思 想 。 


练习 


7.1 使 用 插入 排序 将 序列 3, 1. 4, 1, 5,9, 2, 6, 5 排序 。 

7.2 ”如 果 所 有 的 关键 字 都 相等 , 那么 插入 排序 的 运行 时 间 是 多 少 ? 

7.8 设 我 们 交换 元 素 ALM ALE + kl, 它们 最 初 是 无 序 的 。 证 明 去 掉 的 逆序 最 少 为 
1 个 最 多 为 2& - 1 个 。 

7.4 写 出 使 用 增 量 11, 3, 7} 对 输入 数据 9, 8, 7, 6, 5, 4, 3, 2, 1 运行 希 尔 排序 得 到 的 结果 。 

7.5 a. 使 用 2- 增 量 序列 |1, 2 的 希 尔 排序 的 运行 时 间 是 多 少 ? 
b. 证 明 , 对 任意 的 N, 存在 一 个 3- 增 量 序列 , 使 得 希 尔 排序 以 O(N5 3 ) 时 间 运行 。 
c. 证 明 , 对 任意 的 N, 存在 一 个 6- 增 量 序列 , 使 得 希 尔 排序 以 ONONE FT 

7.6 xa. 证 明 , 使 用 形 如 1, c. c, oo c 的 增 量 , 希 尔 排序 的 运行 时 间 为 Q(N?), 3t 

t, c 为 任 一 整数 。 
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* b. 证 明 , 对 于 这 些 增 量 , 平均 运行 时 间 为 @( N3?)。 
*7.7 证明 , 若 一 个 排序 的 文件 而 后 被 -排序 , 则 它 仍 是 排序 的 。 
* *7.8 WE, 使 用 由 Hibbard 建议 的 增 量 序列 的 希 尔 排序 在 最 坏 情形 下 的 运行 时 间 是 


7.9 


7.20 


ovar 


Q(N32)。 提 示 : 可 以 证 明 当 所 有 的 元 素 不 是 0 就 是 1 时 希 尔 排序 这 种 特殊 情形 
的 时 间 界 。 如 果 i 可 以 表 为 h,, has . hunj + ! 的 线性 组 合 , 则 可 置 Input- 
Data[ i] = 1, 否则 置 为 0。 
确定 希 尔 排序 对 于 下 述 输 入 的 运行 时 间 : 
a. 排 过 序 的 输入 数据 
*b. 反 序 排列 的 输入 数据 
下 述 两 种 对 图 7-4 所 编写 的 希 尔 排序 例 程 的 修改 影响 最 坏 情形 的 运行 时 间 吗 ? 
a. 如 果 Increment 是 偶数 , 则 在 第 2 行 前 从 Increment W 1。 
b. 如 果 Increment 是 偶数 , 则 在 第 2 行 前 往 Increment 加 1。 
指出 堆 排序 如 何 处 理 输入 数据 142, 543, 123, 65, 453, 879, 572, 434, 111, 242, 811, 102。 
a. 对 于 预 排序 的 输入 数据 , 堆 排序 的 运行 时 间 是 多 少 ? 


"b. 证 明 , 堆 排序 的 最 坏 情形 的 界 是 可 以 达到 的 。 


用 归并 排序 将 3, 1, 4, 1, 5, 9, 2, 6 排序 。 

不 使 用 递归 如 何 实现 归并 排序 ? 

确定 对 下 列 数据 进行 归并 排序 的 运行 时 间 : 

a. 排 过 序 的 输入 数据 

b. 反 序 排列 的 输入 数据 

c. 随机 的 输入 数据 

在 归并 排序 的 分 析 中 是 不 考虑 常数 的 。 证 明 , 归并 排序 在 最 坏 情形 下 用 于 比较 的 

次 数 为 NTlog NI - 20 1 1, 

用 三 数 中 值 分 割 法 以 及 截止 为 3 的 快速 排序 将 3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5 排序 。 

使 用 本 章 中 的 快速 排序 实现 方法 确定 下 列 输入 数据 的 快速 排序 运行 时 间 : 

a. 排 过 序 的 输入 数据 

b. 反 序 排列 的 输入 数据 

c. 随机 的 输入 数据 

当 枢纽 元 被 选 作 下 列 元 素 时 重复 练习 7. 18: 

a. 第 一 个 元 素 

b. 前 两 个 互 异 关键 字 中 的 最 大 者 

一 个 随机 元 素 

. 在 该 输入 集合 中 所 有 关键 字 的 平均 值 

.对 于 本 章 中 快速 排序 的 实现 方法 ， 当 所 有 的 关键 字 都 相等 时 它 的 运行 时 间 是 多 少 ? 

.假设 我 们 改变 分 割 策略 使 得 当 找到 一 个 与 枢纽 元 相同 的 关键 字 时 i 和 j 都 不 
停止 。 当 所 有 的 关键 字 都 相等 时 ,为 了 保证 快速 排序 正常 工作 ,需要 对 程序 做 
哪些 修改 ? 运行 时 间 是 多 少 ? 

c. 假设 我 们 改变 分 割 策略 使 得 在 一 个 与 枢纽 元 相同 的 关键 字 处 i 停止 , 但 是 了 
在 类 似 的 情形 下 却 不 停止 。 为 了 保证 快速 排序 正常 工作 , 需要 对 程序 做 哪些 
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修改 ? 当 所 有 的 关键 字 都 相等 时 , 快速 排序 的 运行 时 间 是 多 少 ? 


7.21 设 我 们 选择 中 间 的 关键 字 作 为 枢纽 元 。 这 是 否 使 得 快速 排序 将 不 可 能 需要 二 次 时 间 ? 


7.22 
7.23 


7.24 
7.25 


7.26 


7.32 


构造 个 元 素 的 -个 排 使 得 对 于 三 数 中 值 分 着 目 截止 为 3 的 快速 排序, BAU INS. 
编写 一 个 程序 实现 选择 算法 。 

求解 下 列 递 推 关系 : TON) = (1AN)[ YN TG] +N, T(0) = 0。 

如 果 一 切 具 有 相等 关键 字 的 元 素 都 保持 它们 在 输入 数据 时 呈现 的 顺序 ,那么 这 种 排 
序 算法 就 是 稳定 的 (stable)。 本 章 中 的 排序 算法 哪些 是 稳定 的 ? 哪些 不 是 ” 为什么? 
WAVE N 个 排 过 序 的 元 素 ， 后 面 跟 有 /CN) 个 随机 顺序 的 元 素 。 如 果 /( N) 是 下 
列 情况 ,那么 如 何 将 全 部 数据 排序 ? 

a. f(N) = O(1)? 

b. f(N) = O(log N)? 

c. f(N) = O(/ N)? 


"df(NN) 多 大 使 得 全 部 数据 仍然 能 够 以 O CN ) 时 间 排序 ? 


证 明 : 在 N 个 元 素 排 过 序 的 表 中 找 出 一 个 元 素 X 的 任何 算法 都 需要 Q(log N) 次 比较 。 
利用 Stirling 公式 N! ~Ne)" V2xN 给 出 log (N!1) 的 精确 估计 。 


“a. 两 个 排 过 序 的 N 个 元 素 的 数组 有 多 少 种 合并 的 方法 ? 


给 出 合并 两 个 N 个 元 素 的 排 过 序 的 数组 所 需要 的 比较 次 数 的 非 平凡 下 界 。 
证 明 , 使 用 桶 式 排序 把 具有 范围 在 key <M 内 的 整数 关键 字 的 N 个 元 素 排序 
需要 时 间 O(M + ND. 

设 有 N 个 元 素 的 数组 只 包含 两 个 不 同 的 关键 字 true 和 false。 给 出 一 个 O(N) 算 
法 , 重新 排列 这 些 元 素 使 得 所 有 false 的 元 素 都 排 在 true 的 元 素 的 前 面 。 你 只 能 
使 用 常数 附加 空间 。 

BAN 个 元 素 的 数组 包含 三 个 不 同 的 关键 字 true, false 和 maybe。 给 出 一 个 O 
CN) SE, 重新 排列 这 些 元 素 , 使 得 所 有 false 的 元 素 都 排 在 maybe 元 素 的 前 面 ， 
而 maybe 元 素 都 在 true 元 素 的 前 面 。 你 只 能 使 用 常数 附加 空间 。 

a. WEB], 任何 基于 比较 的 算法 将 4 个 元 素 排序 均 需 5 次 比较 。 

b. 给 出 一 种 算法 用 5 次 比较 将 4 个 元 素 排序 。 

a. 证 明 : 使 用 任何 基于 比较 的 算法 将 5 个 元 素 排 序 都 需要 7 次 比较 。 


"b. 给 出 一 个 算法 用 7 次 比较 将 5 个 元 素 排序 。 


写 出 一 个 有 效 的 希 尔 排序 算法 并 比较 当 使 用 下 列 增 量 序列 时 的 性 能 : 
a. 希 尔 的 原始 序列 

b. Hibbard 的 增 量 

c. Knuth 的 增 最 : h= G+ D 

5 





d. Gonner 的 增 量 : A =LA, WE he =L 5G IG h5 29 Iu D 


e. Sedgewick 增 量 
实现 优化 的 快速 排序 算法 并 用 下 列 组 合 进行 实验 : 
a. 枢纽 元 : 第 一 个 元 素 , 中 间 的 元 素 , 随机 的 元 素 , 三 数 中 值 , 五 数 中 值 。 
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b. 截止 值 从 0 到 20。 
7.37 ”编写 一 个 例 程 读 人 两 个 用 字母 表示 的 文件 并 将 它们 合并 到 一 起 , 形成 第 三 个 也 是 
用 字母 表示 的 文件 。 
7.38” 设 我 们 实现 三 数 中 值 例 程 如 下 : 找 出 Al Left], Al Center] 和 AL Right ] 的 中 值 ， 
并 将 它 与 AL Right ] 交 换 。 以 通常 的 分 割 方法 进行 , 开始 时 ; 在 Left Ib EL; E 
Right - 1 处 (而 不 是 Left + 1 Fn Right - 2). 
a. 设 输 入 为 2, 3, 4, . ..，N - 1, N, 1。 对 于 该 输入 , 这 种 快速 排序 算法 的 运 
行 时 间 是 多 少 ? 
b. 设 输入 数据 旦 反 序 排列 , 对 于 该 输入 , 这 种 快速 排序 算法 的 运行 时 间 又 是 多 少 ? 
7.39 证明: 任何 基于 比较 的 排序 算法 都 需要 平均 Q(Niog N) 次 比较 。 
7.40 考虑 下 面 的 PeroolateDown 算法 。 我 们 在 节点 X 有 一 个 空 穴 (hole)。 普 通 的 例 程 是 比 
BEX 的 儿子 然后 把 比 我 们 将 要 放置 的 元 素 大 的 儿子 上 移 到 X 处 (在 ( mar ) 堆 的 情形 
TO. 由 此 将 空 穴 下 推 ; 当 把 新 元 素 安全 放 到 空 穴 中 时 我 们 终止 算法 。 另 一 种 方法 是 
将 元 素 上 移 且 空 穴 尽 可 能 地 下 移 , 不 用 测试 是 否 能 够 插入 到 新 单元 。 这 将 使 得 新 单 
元 被 放置 到 一 片 树叶 上 并 可 能 破坏 堆 序 ; 为 了 修复 堆 序 , 以 通常 的 方式 将 新 单元 上 
滤 。 写 出 包含 该 想法 的 例 程 , 并 与 标准 的 堆 排序 实现 方法 的 运行 时 间 进行 比较 。 
7.41 提出 一 种 算法 ,只 用 两 盘 磁带 对 一 个 大 型 文件 进行 排序 。 
7.42 a. 通过 建 堆 (build-heap) 最 多 使 用 2N 次 比较 的 事实 推出 堆 个 数 的 下 界 N! / 
2iN, 
b. 利用 Stirling 公式 扩展 该 界 。 
7.43. ANSI C 要 求 例 程 qsort 出 现在 C 函数 库 中 。qsort 由 快速 排序 典型 算法 实现 (但 这 
不 是 必须 的 )。 通 过 各 种 输入 数据 进行 实验 观察 是 否 qsort 能 够 出 现 二 次 的 特性 。 
用 一 些 随机 的 0 和 1 测试 。 
参考 文献 
Knuth 的 书 [13] 虽 然 多 少 有 些 过 时 , 但 仍 不 失 为 一 本 排序 的 综合 参考 文献 。Gonnet 和 
Baeza-Yates[ 5] 含 有 一 些 更 新 结果 以 及 大 量 的 文献 目录 。 
处 理 希 尔 排序 的 原始 论文 是 [22]。Hibbard 的 论文 [6] 提 出 增 量 2^ — 1 的 使 用 并 通过 避 
免 交 换 紧缩 了 程序 。 定 理 7.4 源 自 [13]。Pratt 的 下 界 可 以 在 [15] 中 找到 ， 他 用 到 的 方法 比 
课文 中 提 到 的 方法 要 复杂 。 改 进 的 增 量 序列 和 上 界 出 现在 论文 [10]、 [21] 和 [24] 中 ; 匹配 的 
下 界 见于 [25]。 最 近 的 一 个 结果 指出 ,没有 增 量 序列 能 够 给 出 O(N log NN) 的 最 坏 情形 运行 
时 间 [14]。 和 希 尔 排序 的 平均 情况 运行 时 间 仍然 没有 解决 。Yao[ 27] 对 3- 增 量 情形 进行 了 极其 
复杂 的 分 析 。 其 结果 尚 需 扩展 到 更 多 增 量 。 对 各 种 增 量 序列 的 试验 见于 论文 [23]。 
堆 排序 由 Williams 发 现 [26]; Floyd[2] 提 供 了 构建 堆 的 线性 时 间 算 法 。 定 理 7.5 取 自 [16]。 
归并 排序 的 精确 的 平均 情形 分 析 在 [4] 中 宣布 ; 处 理 这 些 结果 的 论文 唾 手 可 得 。 不 用 附 
加 空间 且 以 线性 时 间 执 行 合并 的 算法 在 [9] 中 描述 。 
快速 排序 源 自 Hoare[7]。 这 篇 论文 分 析 了 基本 算法 ， 描述 了 大 部 分 改进 方法 , 并 且 还 包 
含有 选择 算法 。 详 细 的 分 析 和 经 验 性 的 研究 曾 是 Sedgewick 的 专题 论文 [20] 的 主题 。 许 多 重 
要 的 结果 出 现在 三 篇 论文 [17]、[18] 和 [19] 中 。[1] 提 供 了 详细 的 C 实现 并 包含 某 些 附 加 的 
改进 , 并 且 指出 大 部 分 qsort 库 函 数 的 实现 方法 容易 导致 二 次 的 特性 。 
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决策 树 和 排序 优化 在 Ford 和 Johnson[3] 中 讨论 。 这 篇 论文 还 提供 了 一 个 算法 ， 它 几乎 符合 
用 比较 (而 不 是 其 他 操作 ) 次 数 表示 的 下 界 。 该 算法 最 后 由 Manacher[ 12] 指 出 稍 逊 于 最 优 - 
外 部 排序 及 其 细节 涵盖 于 [11]。 在 练习 7.25 中 描述 的 稳定 排序 算法 已 由 Horvath[8] 提 出 。 
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第 8 章 不 相交 集 ADT 


在 这 一 章 , 我 们 描述 解决 等 价 问题 的 一 种 有 效 数据 结构 。 这 种 数据 结构 实现 起 来 简单 ， 


每 个 例 程 只 需要 儿 行 代码 , 而 且 可 以 使 用 一 个 简单 的 数组 。 它 的 实现 也 非常 地 快 , 每 种 操作 
只 需要 常数 平均 时 间 。 从 理论 上 看 , 这 种 数据 结构 还 是 非常 有 趣 的 ,因为 它 的 分 析 极 其 困 


难 ; 


8.1 


最 坏 情况 的 函数 形式 不 同 于 我 们 已 经 见 过 的 任何 形式 。 对 于 这 种 不 相交 集 ADT, 我 们 将 
e 讨论 如 何 能 够 以 最 少 的 编程 代价 实现 
。 通 过 两 个 简单 的 观察 极 大 地 增加 它 的 速度 。 
© 分 析 一 种 快速 的 实现 方法 的 运行 时 间 - 
。 介绍 一 个 简单 的 应 用 。 
等 价 关系 


车 对 于 每 一 对 元 素 (a, b), a, HES, aRb 或 者 为 true 或 者 为 false, 则 称 在 集合 S 上 定 


义 关 系 (relation)R。 如 果 aRb 是 true, 那么 我 们 说 a 与 5 有 关系 。 


等 价 关系 (equivalence relation) 是 满足 下 列 三 个 性 质 的 关系 R: 

1.( 自 反 性 ) 对 于 所 有 的 a€ S. aRa。 

2.( 对 称 性 )aRb 当 且 仅 当 bRa。 

3.( 传 递 性 ) 若 aRb 且 bRc 则 aRc。 

我 们 将 考虑 几 个 例子 。 

关系 “二” 不 是 等 价 关系 。 虽 然 它 是 自 反 的 ( 即 aa), 可 传递 的 ( 即 由 a<b Mo<c 得 


hasc), 但 它 却 不 是 对 称 的 ,因为 从 a<b 并 不 能 得 出 ba 。 


电气 连通 性 (electrical connectivity) 是 一 个 等 价 关系 ,其 中 所 有 的 连接 都 是 通过 金属 导线 


完成 的 。 该 关系 显然 是 自 反 的 ,因为 任何 元 件 都 是 自身 相连 的 。 如 果 a 电气 连接 到 4b, 那么 
b 必然 也 电气 连接 到 a 。 最 后 , 如果 a 连接 到 6, 而 5 又 连接 到 c, 那么 a 连接 到 c。 因 此 , 电 


气 连接 是 一 个 等 价 关 系 。 


系 。 


za 


如 果 两 个 城市 位 于 同一 个 国家 , 那么 定义 它们 是 有 关系 的 。 容 易 验证 这 是 一 个 等 价 关 
如 果 能 够 通过 公路 从 城镇 a 旅行 到 6， 则 设 与 有 关系 。 如 果 所 有 的 道路 都 是 双向 行 


驶 的 , 那么 这 种 关系 也 是 一 个 等 价 关系 。 
8.2 动态 等 价 性 问题 


给 定 一 个 等 价 关系 “一 ”, 一 个 自然 的 问题 是 对 任意 的 a Mo, 确定 是 否 a 一 6。 如 果 将 


等 价 关系 存储 为 一 个 二 维 布尔 数组 , 那么 当然 这 个 工作 可 以 以 常数 时 间 完 成 。 问 题 在 于 , 这 
种 关系 的 定义 通常 不 明显 而 是 相当 隐秘 。 


作为 一 个 例子 , 设 在 5 个 元 素 的 集合 lai ，az，a3，a4，asi 上 定义 一 个 等 价 关系 。 此 时 


存在 25 对 元 素 , 它们 的 每 一 对 或 者 有 关系 或 者 没有 关系 。 然 而 , 信息 al 一 a2，43 一 as, 


as 


~ ayy as~ a; 意味 着 每 一 对 元 素 都 是 有 关系 的 。 我 们 希望 能 够 迅速 推断 出 这 些 关 系 。 


一 个 元 素 a € S HF MK (equivalence class) 是 S 的 一 个 子 集 , 它 包含 所 有 与 a。 有 关系 的 
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TOR. HEB, 等 价 类 形成 对 S 的 一 个 划分 : S 的 每 一 个 成 员 恰好 出 现在 一 个 等 价 类 中 。 为 确 
EBB a — b. 我 们 只 需 验证 a 和 4 是否 都 在 同一 个 等 价 类 中 。 这 给 我 们 提供 了 解决 等 价 问 
题 的 方法 。 

输入 数据 最 初 是 N 个 集合 的 类 (collection), 每 个 集合 含有 一 个 元 素 。 初始 的 描述 是 所 有 
的 关系 均 为 false( 自 反 的 关系 除外 )。 每 个 集合 都 有 一 个 不 同 的 元 素 , 从 而 SNS = Os 这 使 
得 这 些 集合 不 相交 (disjoint) o 

此 时 ,， 有 两 种 运算 允许 进行 。 第 一 种 运算 是 Find, 它 返回 包含 给 定 元 素 的 集合 ( 即 等 价 
类 ) 的 名 字 。 第 二 种 运算 是 添加 关系 。 如 果 我 们 想 要 添加 关系 a ~ b, 那么 我 们 首先 要 看 是 
否 a 和 4b 已 经 有 关系 。 这 可 以 通过 对 a Mo 执行 Find 并 检验 它们 是 否 在 同一 个 等 价 类 中 来 
完成 。 如 果 它 们 不 在 同一 类 中 , 那么 我 们 使 用 求 并 运算 Union, 这 种 运算 把 含有 a 和 6 的 两 
个 等 价 类 合并 成 一 个 新 的 等 价 类 。 从 集合 的 观点 来 看 ，U 的 结果 是 建立 一 个 新 集合 S = S, 
US ,去掉 原来 两 个 集合 而 保持 所 有 的 集合 的 不 相交 性 。 由 于 这 个 原因 ,常常 把 做 这 项 工作 
的 算法 叫做 不 相交 集合 的 Union/Find 算法 。 

该 算法 是 动态 的 (dynamic), 因为 在 算法 执行 的 过 程 中 , 集合 可 以 通过 Union 运算 而 发 生 
改变 。 这 个 算法 还 必然 是 联机 (on-line) 操 作 : 当 Find 执行 时 , 它 必须 给 出 答案 算法 才能 继续 
进行 。 另 一 种 可 能 是 脱 机 (off-line) 算 法 ,该 算法 需要 观察 全 部 的 Union 和 Find 序列 。 它 对 每 
个 Find 给 出 的 答案 必须 和 所 有 执行 到 该 Find 的 Union 一 致 ， 而 该 算法 在 看 到 所 有 的 问题 以 
后 再 给 出 它 的 所 有 的 答案 。 这 种 差别 类 似 于 参加 一 次 笔试 ( 它 一 般 是 脱 机 的 一 一 你 只 能 在 规 
定 的 时 间 用 完 之 前 给 出 答卷 ) 和 一 次 口试 ( 它 是 联机 的 , 因为 你 必须 回答 当前 的 问题 , 然后 才 
能 继续 下 一 个 问题 )。 

注意 , 我 们 不 进行 任何 比较 元 素 相 关 的 值 的 操作 ,而 是 只 需要 知道 它们 的 位 置 。 由 于 这 
个 原因 , 我 们 假设 所 有 的 元 素 均 已 从 1 到 N 顺序 编号 并 且 编号 方法 容易 由 某 个 散 列 方案 确 
定 。 于 是 , 开始 时 我 人 有 S= lil, i = 1 到 No。 

我 们 的 第 二 个 观察 是 , 由 Find 返回 的 集合 的 名 字 实 际 上 是 相当 任意 的 。 真正 重要 的 关 
HET: Find(a) = Find( b) E.DCS a 和 4 在 同一 个 集合 中 。 

这 些 运 算 在 许多 图 论 问 题 中 是 重要 的 , 在 一 些 处 理 等 价 (或 类 型 ) 声 明 的 编译 程序 中 也 很 
重要 。 我 们 将 在 后 面 讨论 一 个 应 用 。 

解决 动态 等 价 问题 的 方案 有 两 种 。 一 种 方案 保证 指令 Find 能 够 以 常数 最 坏 情 形 运行 时 
间 执 行 ,而 另 一 种 方案 则 保证 指令 Union 能 够 以 常数 最 坏 情形 运行 时 间 执行 。 最 近 有 人 指出 
二 者 不 能 同时 做 到 。 

我 们 将 简要 讨论 第 一 种 处 理 方法 。 为 使 Find 运算 快 ， 可 以 在 一 个 数组 中 保存 每 个 元 素 
的 等 价 类 的 名 字 。 此 时 ,Find 就 是 简单 的 O(1) 查 找 。 设 我 们 想 要 执行 Union(a, b), 并 设 a 
在 等 价 类 ; 中 而 b 在 等 价 类 j 中 。 然 后 我 们 扫描 该 数组 , 将 所 有 的 i 改变 成 j。 不 过 , 这 次 扫 
描 要 花费 B(N) 时 间 。 于 是 , 连续 N - 1 次 Union 操作 (这 是 最 大 值 ， 因为 此 时 每 个 元 素 都 
在 一 个 集合 中 ) 就 要 花费 B(N2) 的 时 间 。 如 果 存 在 0(N?) 次 Find 运算 , 那么 性 能 会 很 好 ， 
因为 在 整个 算法 进行 过 程 中 每 个 Find 或 Union 运算 的 总 的 运行 时 间 为 O(1)。 如 果 Find 运 
算 没有 那么 多 , 那么 这 个 界 是 不 可 接受 的 。 

一 种 想法 是 将 所 有 在 同一 个 等 价 类 中 的 元 素 放 到 一 个 链表 中 。 这 在 更 新 的 时 候 会 节省 时 
我 们 不 必 搜 索 整个 数组 。 但 是 由 于 它 在 算法 过 程 中 仍然 可 能 执行 O(N?) HK FHA 
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的 更 新 , 因此 它 本 身 并 不 能 单独 减少 渐进 运行 时 间 。 

如 果 我 们 还 要 跟踪 每 个 等 价 类 的 大 小 , 并 在 执行 Union 时 将 较 小 的 等 价 类 的 名 宁 改 成 较 
大 的 等 价 类 的 名 字 , 那么 对 于 N - 1 次 合并 的 总 的 时 间 开 销 为 OCN log N)。 其 原因 在 于 ， 
每 个 元 素 可 能 将 它 的 等 价 类 最 多 改变 log NK, 因为 每 次 它 的 等 价 类 改变 时 它 的 新 的 等 价 类 
至 少 是 它 的 原来 等 价 类 的 两 倍 大 。 使 用 这 种 方法 , 任意 顺序 的 M 次 Find 和 直到 N 一 1 次 
的 Union 最 多 花费 O(M + N log N) 时 间 。 

在 本 章 的 其 余部 分 , 我 们 将 考查 Union /Find 问题 的 一 种 解法 ,其 中 Union 运算 容易 但 
Find 运算 要 难 一 些 。 即 使 如 此 , 任意 顺序 的 最 多 M 次 Find 和 直到 N - 1 次 Union 的 运行 
时 间 将 只 比 O(M + N) 多 一 点 。 


8.3 基本 数据 结构 


记 住 , 我 们 的 问题 不 要 求 Find 操作 返回 任何 特定 的 名 字 , 而 只 是 要 求 当 且 仅 当 两 个 元 素 
属于 相同 的 集合 时 ,作用 在 这 两 个 元 素 上 的 Find 返回 相同 的 名 字 。- -种 想法 是 可 以 使 用 树 
来 表示 每 一 个 集合 , 因为 村 上 的 每 一 个 元 素 都 有 相同 的 根 。 这 样 , 该 根 就 可 以 用 来 命名 所 在 
的 集合 。 我 们 将 用 树 表示 每 一 个 集合 。( 记 住 , 树 的 集合 叫做 森林 。) 开 始 时 每 个 集合 含有 一 
个 元 素 。 我 们 将 要 使 用 的 这 些 树 不 一 定 必须 是 二 叉 树 , 但 是 表示 它们 要 容易 , 因为 我 们 需要 
的 惟一 信息 就 是 一 个 父 指针 。 集 合 的 名 字 由 根 处 的 节点 给 出 。 由 于 只 需要 父 节点 的 名 字 , A 
此 我 们 可 以 假设 树 被 非 显 式 地 存储 在 一 个 数组 中 : 数组 的 每 个 成 员 P[ i 表示 元 素 i 的 父亲 
如 果 i 是 根 , 那么 P[i] = 0。 在 图 8-1 的 森林 中 , 对 于 1<i<8, PLi] = 0。 正 如 在 堆 中 屠 
样 , 我 们 也 将 显 式 地 画 出 这 些 树 , 注意 , 此 时 正在 使 用 一 个 数组 。 图 8-1 表达 了 这 种 显 式 的 
表示 方法 ， 为 方便 起 见 , 我 们 将 把 根 的 父 指针 垂直 画 出 。 
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图 8-1 ADER. 最 初 是 在 不 同 的 集合 上 


为 了 执行 两 个 集合 的 Union 运算 , 我们 使 一 个 节点 的 根 指针 指向 另 一 棵 树 的 根 节点 。 显 
JR. 这 种 操作 花费 常数 时 间 。 图 8-2、8-3 和 8-4 分 别 表示 在 Union(S, 6). Union(7, 8) 和 
Union(5, 7) 后 的 森林 , 其 中 , 我 们 采纳 了 在 Union(X，Y) 后 新 的 根 是 X 的 约定 。 最 后 的 森 
林 的 非 显 式 表 示 见 图 8-5。 
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图 8-2 在 Union(5, 6) 之 后 


对 元 素 X 的 一 次 Find(X) 操 作 通过 返回 包含 X 的 树 的 根 而 完成 。 执行 这 次 操作 花费 的 
时 间 与 表示 X 的 节点 的 深度 成 正比 ,当然 这 要 假设 我 们 以 常数 时 间 找 到 表示 X 的 节点 。 使 
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图 8-3 在 Union(7, 8) 之 后 
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图 8-4 在 Union(5, 7) 之 后 























0 » [o [o II m 5 | ? 
CE 
图 8-5 上 面 的 树 的 非 显 式 表示 


用 上 面 的 方法 , 能 够 建立 一 棵 深度 为 N - 1 的 树 , 使 得 一 次 Find 的 最 坏 情形 运行 时 间 是 
O(N) ,一般 情况 , 运行 时 间 是 对 连续 混合 使 用 M 个 指令 来 计算 的 。 在 这 种 情况 下 ，M KE 
续 操作 在 最 坏 情 形 下 可 能 花费 O(MN ) 时 间 。 

图 8-6 到 图 8-9 中 的 程序 表示 基本 算法 的 实现 , 假设 差错 检验 已 经 执行 。 在 我 们 的 例 程 
中 , 这 些 Union 是 在 这 些 树 的 根 上 进行 的 。 有 时 候 运算 是 通过 任意 两 个 元 素 进 行 ， 并 使 得 
Union 执 行 两 次 Find 以 确定 这 些 根 。 





wifndef _DisjSet_H 


typedef int DisjSet[ NumSets + 1]; 
typedef int SetType: 
typedef int ElementType; 


void Initilialize( DisjSet S ); 
void SetUnion( DisjSet S, SetType Rootl, SetType Root2 ); 
SetType Find( ElementType X, DisjSet S ); 


wendif /* .DisjSet H */ 











图 8-6 不 相交 集合 的 类 型 声明 


平均 时 间 分 析 是 相当 困难 的 。 最 起 码 的 问题 是 答案 依赖 于 如 何 定义 (对 Union 操作 而 言 
366| 的) 平均。 例如 ,在 图 8-4 的 森林 中 , 我 们 可 以 说 , 由 于 有 SHR, 因此 下 一 个 Union 就 存在 
28 5.4 = 20 个 等 可 能 的 结果 (因为 任意 两 棵 不 同 的 树 都 可 能 被 Union)。 当 然 , 这 个 模型 的 仿 


义 在 于 ， 只 存在 过 的 机 会 使 得 下 一 次 Union 涉及 到 大 树 。 另 一 种 模型 可 能 会 认为 在 不 同 的 树 
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void 
Initialize( DisjSet S) 
1 


int i; 


for( i = NumSets; i > 0; i-- ) 
Sti} =0; 











图 8-7 不 相交 集合 的 初始 化 例 程 





/* Assumes Rootl and Root2 are roots */ 
/* union is a C keyword, so this routine */ 
/* is named SetUnion */ 


void 
SetUnion( DisjSet S, SetType Rootl, SetType Root2 ) 


SE Root2 ] = Root1; 
} 











图 8-8 ”Union( 不 是 最 好 的 方法 ) 









SetType 
Find( ElementType X, DisjSet S ) 


if( SEX] « 0) 
return X; 
else 
return Find SẸ X J, $2: 





图 8-9 一 个 简单 不 相交 集合 Find 算法 


上 任意 两 个 元 素 间 的 所 有 Union 都 是 等 可 能 的 , 因此 大 树 比 小 树 更 有 可 能 在 下 一 次 Union 中 
涉及 到 。 在 上 面 的 例子 中 ， 有 各 的 机 会 大 树 在 下 一 次 Union 中 会 被 涉及 到 ,因为 (忽略 对 称 
性 ) 存 在 6 种 方法 合并 |1, 2, 3, 4| 中 的 两 个 元 素 以 及 16 种 方法 将 15, 6, 7, 8| 中 的 一 个 元 素 
与 11, 2, 3, 4| 中 的 一 个 元 素 合并 。 还 存在 更 多 的 模型 ,而 在 何者 为 最 好 的 问题 上 没有 一 般 
的 一 至 见解。 平均 运行 时 间 依 赖 于 模型 ; 对 于 三 种 不 同 的 模型 , 时 间 界 @( M), OCM log N) 
以 及 GC MN) 实 际 上 已 经 证 明 , 不 过 , 最 后 的 那个 界 更 现实 些 。 

对 一 系列 操作 的 二 次 (quadratic) 运 行 时 间 一 般 是 不 可 接受 的 。 可 幸 的 是 ， 有 几 种 方法 容 
易 保证 这 样 的 运行 时 间 不 会 出 现 。 


8.4 灵巧 求 并 算法 


上 面 的 Union 的 执行 是 相当 任意 的 , 它 通过 使 第 二 棵 树 成 为 第 一 棵 树 的 子 树 而 完成 合 
并 。 对 其 进行 简单 改进 是 借助 任意 的 方法 打破 现 有 关系 ， 使 得 总 让 较 小 的 树 成 为 较 大 的 树 的 
子 树 ; 我 们 把 这 种 方法 叫做 按 大 小 求 并 (union-by-size)。 前 面 例子 中 三 次 Union 的 对 象 大 小 
都 是 一 样 的 , 因此 我 们 可 以 认为 它们 都 是 按照 大 小 执行 的 。 假 如 下 一 次 运算 是 Union(4, 5), 
那么 结果 将 形成 图 8-10 中 的 森林 。 倘 若 没有 对 大 小 进行 探测 而 直接 Union, 那么 结果 将 会 形 
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成 更 深 的 树 (图 8-11)。 


PN 


图 8-10 按 大 小 求 并 的 结果 


óó6óóí 









图 8-11 进行 一 次 任意 的 并 的 结果 


我 们 可 以 证 明 , 如 果 这 些 Union 都 是 按照 大 小 进行 的 , 那么 任何 节点 的 深度 均 不 会 超过 
log N。 为 此 , 首先 注意 节点 初始 处 于 深度 0 的 位 置 。 当 它 的 深度 随 着 一 次 Union 的 结果 而 增 
加 的 时 候 , 该 节点 则 被 置 于 至 少 是 它 以 前 所 在 树 两 倍 大 的 一 棵 树 上 。 因 此 , 它 的 深度 最 多 可 
以 增加 log N 次 。( 我 们 在 8.2 节 末尾 的 快速 查找 算法 中 用 过 这 个 论断 。) 这 意味 着 ，Find W 
作 的 运行 时 间 是 O(log N), 而 连续 M 次 操作 则 花费 O(M log N)。 图 8-12 中 的 树 指出 在 
16 次 Union 后 有 可 能 得 到 这 种 最 坏 的 树 ,而 且 如 果 所 有 的 Union 都 对 相等 大 小 的 树 进行 ， 那 
么 这 样 的 树 是 会 得 到 的 (最 坏 情形 的 树 是 在 第 6 章 讨 论 过 的 二 项 树 )。 





图 8-12 N = 16 时 最 坏 情形 的 树 


为 了 实现 这 种 方法 , 我 们 需要 记 住 每 一 棵 树 的 大 小 。 由 于 我 们 实际 上 只 使 用 一 个 数组 ， 
因此 可 以 让 每 个 根 的 数组 元 素 包含 它 的 树 的 大 小 的 负 值 。 这 样 一 来 , 初始 时 树 的 数组 表示 就 
都 是 - 1 了 (而 图 8-7 则 需要 进行 相应 的 改变 )。 当 执行 一 次 Union Bf, 要 检查 树 的 大 小 ; 新 
的 大 小 是 老 的 大 小 的 和 。 这 样 , 按 大 小 求 并 的 实现 根本 不 存在 困难 , 并且 不 需要 额外 的 空 
间 , 其 速度 平均 也 很 快 。 对 于 真正 所 有 合理 的 模型 , 业已 证 明 , 若 使 用 按 大 小 求 并 则 连续 M 
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次 运算 需要 O(M) 平 均 时 间 。 这 是 因为 当 随机 的 诸 Union 执行 时 整个 算法 一 般 只 有 一 些 很 小 
的 集合 (通常 含 一 个 元 素 ) 与 大 集合 合并 。 

另外 一 种 实现 方法 为 按 高 度 求 并 (union-by-height), 它 同样 保证 所 有 的 树 的 深度 最 多 是 
O(log N)。 我 们 跟踪 每 棵 树 的 高 度 而 不 是 大 小 并 执行 那些 Union 使 得 浅 的 树 成 为 深 的 树 的 
子 树 。 这 是 一 种 平缓 的 算法 ,因为 只 有 当 两 棵 相等 深度 的 树 求 并 时 树 的 高 度 才 增加 (此 时 树 
的 高 度 增 1)。 这 样 , 按 高 度 求 并 是 按 大 小 求 并 的 简单 修改 。 

下 列 各 图 显示 一 棵 树 以 及 它 对 于 按 大 小 求 并 和 按 高 度 求 并 的 非 显 式 表示 。 图 8- 13 中 的 
程序 实现 的 是 按 高 度 求 并 的 代码 。 


ODO A 
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/* Assume Rootl and Root2 are roots */ 
/* union is a C keyword, so this routine */ 
/* is named SetUnion */ 


void 
SetUnion( DisjSet S, SetType Rootl, SetType Root2 ) 


fC S( Root2 ] < S[ Rootl ] ) /* Root2 is deeper set */ 
S[ Root ] = Root2; /* Make Root2 new root */ 
else 


if( S[ Root] ] == S[ Root2 ) ) /* Same height, */ 
S[ Root] ]--; /* so update */ 
SC Root2 ] = Rootl; | 
) 
) 








8-13 按 高 度 ( 秩 ) 求 并 的 程序 


8.5 路 径 压缩 


迄今 所 描述 的 Union Find 算法 对 于 大 多 数 的 情形 都 是 完全 可 接受 的 ， 它 是 非常 简单 的 ， 
而 且 对 于 连续 M 个 指令 (在 所 有 的 模型 下 ) 平 均 是 线性 的 。 不 过 , O( M log NN) 的 最 坏 情 况 还 
是 可 能 相当 容易 并 自然 地 发 生 的 。 例 如 ， 如 果 我 们 把 所 有 的 集合 放 到 一 个 队列 中 并 重复 地 让 
前 两 个 集合 出 队 而 让 它们 的 并 人 队 , 那么 最 坏 的 情况 就 会 发 生 。 如 果 运算 Find 比 Union 多 
很 多 , 那么 其 运行 时 间 就 比 快速 查找 算法 的 运行 时 间 要 精 。 而 且 应 该 清楚 ,对 于 Union 算法 
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ABA BS BGAN TRE. DUEAETUUEMDRUX: BUT Union 操作 的 任何 算法 都 将 产生 相同 
的 最 坏 情 形 的 树 , 因 为 它 必 然 会 随意 打破 树 间 的 均衡 。 因 此 , 无 须 对 整个 数据 结构 重新 加 上 
而 使 算法 加 速 的 惟一 方法 是 对 Find 操作 做 些 更 聪明 的 工作 。 

这 种 聪明 的 操作 叫做 路 径 压 缩 (path compression)。 路 径 压 缩 在 一 次 Find 操作 期 间 执行 
而 与 用 来 执行 Union 的 方法 无 关 。 设 操作 为 Find(X), 此 时 路 径 压 缩 的 效果 是 , 从 X 到 根 的 
路 径 上 的 每 一 个 节点 都 使 它 的 父 节点 变 成 根 。 图 8-14 指出 在 对 图 8-12 的 最 坏 的 树 执行 Find 
(15) 后 压缩 路 径 的 效果 。 





图 8-14 路径 压 缩 的 一 个 例子 


路 径 压缩 的 实施 在 于 使 用 额外 的 两 次 指针 移动 , 节点 13 和 14 现在 离 根 近 了 一 个 位 置 ， 
而 节点 15 和 16 现在 离 根 近 了 两 个 位 置 。 因 此 ,对 这 些 节点 未 来 的 快速 存 取 将 付出 (我 们 项 
望 ) 额 外 的 工作 来 进行 路 径 压缩 。 

正如 图 8-15 中 的 程序 所 指出 的 ,路径 压缩 对 基本 的 Find 操作 改变 不 大 。 对 Find 例 程 来 
说 , 惟一 的 变化 是 使 得 SLX] 等 于 由 Find 返回 的 值 ; 这 样 , 在 集合 的 根 被 递归 地 找到 以 后 ， 
X 就 直接 指向 它 。 对 通 向 根 的 路 径 上 的 每 一 个 节点 这 将 递归 地 出 现 , 因此 实现 了 路 径 压缩 。 





SetType 
Find( ElementType X, DisjSet S ) 


if( SEX] <= 0) 
return X; 
else 
return SC X ] = Find SCX], S); 
H 








图 8-15 用 路 径 压缩 进行 不 相交 集 Find 的 程序 


当 任意 执行 一 些 Union 操作 的 时 候 , 路 径 压缩 是 一 个 好 的 想法 ,因为 存在 许多 的 深层 节 
点 并 通过 路 径 压 缩 将 它们 移 近 根 节点 。 业 已 证 明 ， 当 在 这 种 情况 下 进行 路 径 压缩 时 ,连续 M 
次 操作 最 多 需要 O(M log N) 的 时 间 。 不 过 , 在 这 种 情形 下 确定 平均 情况 的 性 能 如 何 仍然 是 
一 个 尚未 解决 的 问题 。 

路 径 压缩 与 按 大 小 求 并 完全 兼容 , 这 就 使 得 两 个 例 程 可 以 同时 实现 。 由 于 单独 进行 按 大 
小 求 并 要 以 线性 时 间 执 行 连续 M 次 运算 ， 因此 还 不 清楚 在 路 径 压缩 中 涉及 的 额外 一 赵 工 作 
平均 来 讲 是 否 值得 。 这 个 问题 实际 上 仍然 没有 解决 。 不 过 后 面 我 们 将 会 看 到 ， 路 径 压 缩 与 灵 
巧 求 并 法 则 结合 在 所 有 情况 下 都 将 产生 非常 有 效 的 算法 。 

路 径 压缩 不 完全 与 按 高 度 求 并 兼容 , 因为 路 径 压缩 可 以 改变 树 的 高 度 。 我 们 根本 不 清楚 
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如 何 有 效 地 去 重新 计算 它们 。 答 案 是 不 去 计算 !! 此 时 , 对 于 每 棵 树 所 存储 的 高 度 是 估计 的 
高 度 (有 时 称 为 秩 一 一 rank), 但 实际 上 按 秩 求 并 ( 它 正 是 现在 已 经 变 成 的 这 样 ) 理 论 上 和 按 大 
小 求 并 效率 是 一 样 的 。 不 仅 如 此 , 高 度 的 更 新 也 不 如 大 小 的 更 新 频繁 。 与 按 大 小 求 并 一 样 ， 
我 们 也 不 清楚 路 径 压缩 平均 说 来 是 否 值得 - 下 一 节 将 证 明 , 使 用 求 并 试探 法 或 路 径 压缩 都 能 
够 显著 地 减少 最 坏 情况 运行 时 间 。 


8.6 按 秩 求 并 和 路 径 压 缩 的 最 坏 情形 


当 使 用 两 种 探测 法 时 , 算法 在 最 坏 情形 下 几乎 是 线性 的 。 特 别 地 , 在 最 坏 情形 下 需要 的 
时 间 是 9(Ma(M，N))( 假 设 MSN), 其 中 , ac(M，N) 是 Ackermann 函数 的 道 ，Acker- 
mann 函数 如 下 定义 :5 
AQ, j) = 2, j21 
A(i, 1) = A(i - 1, 2), i22 
AG, = Ali- 1, AG, j- 1)), i, jz2 





由 此 我 们 定义 
a(M, N) = minliZl | AG, LM/NJ) > log NI 

你 可 以 想 要 计算 某 些 值 , 不 过 实用 中 <(M，N) 近 4, 这 对 我 们 才 是 真正 重要 的 。 单 变量 
反 Ackermann 函数 有 时 写成 log" N, 它 是 N WARNS 时 取 对 数 的 次 数 。 于 是 ， 
log'65536 = 4, 这 是 因为 log log log log 65536 = 1, Log’ 2° =5, 不 过 要 知道 , 2° HT Je 
一 个 有 20 000 位 数字 的 大 数 。a(M，N) 实 际 上 甚至 比 log” N 增长 得 还 慢 。 然 而 ,a (M， 
NN) 却 不 是 常数 , 因此 运行 时 间 并 不 是 线性 的 。 

在 本 节 的 其 余部 分 我 们 将 证 明 一 个 稍微 弱 一 些 的 结果 。 我 们 将 证 明 , 任意 顺序 的 M = 
O(N) 次 Union/Find 操作 花费 总 的 运行 时 间 为 OCM log? N)。 如 果 用 按 大 小 求 并 代替 按 秩 
求 并 , 则 这 个 界 同样 是 成 立 的 。 对 它 的 分 析 大 概 是 本 书 最 为 复杂 的 分 析 工 作 , 也 是 曾 对 事实 
上 实现 了 的 非常 简单 的 一 个 算法 进行 的 第 一 批 真正 复杂 的 最 坏 情形 的 分 析 之 一 。 

8.6.1 Union/Find 算法 分 析 

在 这 一 小 节 , 我 们 对 连续 M = Q(N) 次 Union/Find 操作 的 运行 时 间 建 立 一 个 相当 严格 
的 界 ，Union 和 Find 可 以 以 任何 顺序 出 现 , 但 是 Union 是 按 秩 计算 而 Find 则 利用 路 径 压 缩 
完成 。 

我 们 通过 建立 某 些 涉及 秩 r 的 节点 个 数 的 引 理 开始 。 直 观 地 看 , 由 于 按 秩 求 并 的 法 则 ， 
小 秩 的 节点 要 比 大 秩 的 节点 多 得 多 。 特 别 是 ,最 多 可 能 存在 一 个 秩 为 og N 的 节点 。 我 们 想 
要 得 出 对 任意 给 定 秩 r 的 节点 个 数 的 一 个 尽 可 能 精确 的 界 。 由 于 秩 仅 当 Union 执行 (从 而 仅 
当 两 棵 树 具有 相同 的 秩 ) 时 变化 , 因此 我 们 可 以 通过 忽略 路 径 压 缩 来 证 明 这 个 界 。 

引 理 8.1 

当 执行 一 系列 Union 指令 时 , 一 个 秩 为 r 的 节点 必然 至 少 有 2" 个 后 裔 (包括 它 自己 )。 

证 明 : 

数学 归纳 法 。 对 于 基准 情形 + = 0 引 理 显然 成 立 。 令 T 是 秩 为 ~ 的 具有 最 少 后 裔 数 的 
树 , 并 令 X 是 工 的 根 。 设 涉及 X 的 最 后 一 次 Union 是 在 T, 和 Tz 之 间 进 行 的 。 设 T, 的 根 


O Ackermann 函数 常常 用 A(1, j)=j+1,j 之 1 定义。 书 中 的 形式 增长 得 更 快 ; 因此 , 它 的 逆 增 长 得 就 更 慢 
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A X. WRT, 的 秩 是 r, 那么 Ti 就 是 一 棵 高 度 为 x 的 树 且 比 了 有 更 少 的 后 裔 , 这 与 工 是 
具有 最 少 后 裔 数 的 树 的 假设 矛盾 。 因 此 T, 的 秩 小 于 等 于 r - 1。T 的 秩 小 于 等 于 T WK. 
由 于 T 有 秩 r 而 秩 只 能 因 T: 增加 , 因此 T. 的 秩 为 > - 1。 于 是 Ti 的 秩 为 + - 1。 根 据 归 
纳 假设 , 每 棵 树 至 少 有 2° ! 个 后 裔 ,从 而 总 数 为 2 个 后 裔 , 引 理 得 证 。 

引 理 8.1 告诉 我 们 , 如 果 不 进行 路 径 压缩 , 那么 秩 为 > 的 任意 节点 必然 至 少 有 2" 个 后 
f. CHER, 路 径 压缩 可 以 改变 这 种 状况 , 因为 它 能 够 把 后 高 从 节点 上 除去 。 不 过 , MORET 
Union, 甚至 用 到 路 径 压缩 时 , 我 们 都 是 在 使 用 秩 , 这 些 秩 是 高 度 的 估计 值 。 这 些 秩 的 行为 就 
像 是 没有 路 径 压 缩 一 样 。 因 此 ,， 当 确定 秩 为 > 的 节点 个 数 的 界 时, 路 径 压缩 可 以 忽略 。 

于 是 , 下 面 的 定理 对 于 有 路 径 压 缩 还 是 没有 路 径 压 缩 都 是 成 立 的 。 

引 理 8.2 

秩 为 + 的 节点 的 个 数 最 多 是 N/ 2"。 

证 明 

若 无 路 径 压缩 , 每 个 秩 为 + 的 节点 都 是 至 少 有 2" 个 节点 的 子 树 的 根 。 在 该 子 树 中 没有 
其 秩 能 够 是 的 节点 。 因 此 , 秩 为 r 的 那些 节点 的 所 有 的 子 树 是 不 相交 的 。 于 是 , 存在 至 多 
N 个 不 相交 的 子 树 , 从 而 最 多 有 N/L 个 秩 为 r 的 节点 。 

下 一 个 引 理 看 似 多 少 有 些 显而易见 ,不 过 它 在 我 们 的 分 析 中 却 是 至 关 重要 的 。 

引 理 8.3 

在 Union/Find 算 法 的 任 一 时 刻 ,从 树叶 到 根 的 路 径 上 的 节点 的 秩 单调 增加 。 

证 明 

如 果 不 存在 路 径 压缩 , 那么 该 引 理 显然 成 立 (参见 例子 )。 如 果 在 路 径 压缩 后 某 个 节点 "是 w 的 
NEE, 那么 当 只 考虑 Union 时 显然 v 必然 已 经 是 w 的 一 个 后 痛 了 。 因 此 。w 的 秩 少 于 w 的 秩 。 

让 我 们 来 总 结 这 些 初步 的 结果 。 引 理 8.2 告诉 我 们 多 少 节点 可 以 赋予 秩 r。 因 为 秩 只 有 
通过 Union 赋值 ,所 以 引 理 8.2 在 Union Find 算法 的 任何 阶段 甚至 在 路 径 压 缩 的 中 间 都 是 
成 立 的 。 图 8-16 指出 ， 当 存在 许多 秩 为 0 和 1 的 节点 时 , 随 着 r 的 增 大 秩 为 ~ 的 节点 变 少 。 

引 理 8.2 在 对 任意 秩 r 都 有 可 能 存在 N/2" 个 节点 的 定义 下 是 严格 的 。 但 该 引 理 还 是 稍微 
有 些 宽松 ， 因 为 不 可 能 对 所 有 的 秩 > 这 个 界 同时 成 立 。 引 理 8. 2 描述 了 秩 为 的 节点 的 个 数 ， 
而 引 理 8.3 则 告诉 我 们 它们 的 分 布 。 正 如 所 期 望 的 ， 节点 的 秩 沿 着 从 叶 到 根 的 路 径 严 格 递增 。 

现在 我 们 准备 证 明 主要 的 定理 。 证 明 的 基本 想法 如 下 : 对 任何 节点 "的 Find 所 花费 的 
时 间 与 从 v 到 根 的 路 径 上 的 节点 的 个 数 成 正比 。 现 在 让 我 们 对 每 个 Find 在 从 v 到 根 的 路 径 
上 的 每 一 个 节点 收取 一 个 单位 的 费用 。 为 了 帮助 我 们 计算 这 些 费 用 ， 我 们 想像 在 路 径 的 每 一 
个 节点 上 存 人 一 美 分。 严格 地 说 这 是 一 个 会 计 诀窍 ， 它 并 不 是 程序 的 一 部 分 。 当 算法 结束 
时 , 我 们 将 已 经 存 人 的 所 有 分 币 剑 起 来 , 这 就 是 总 的 花费 。 

作为 进一步 的 会 计 诀窍, 我 们 存 人 美 分 和 加 拿 大 分 两 种 分 币 。 我 们 将 证 明 , 在 算法 执行 
期 间 , 对 于 每 次 Find 我 们 只 能 存 人 一 定量 的 美 分 。 我 们 还 将 证 明 ， 我 们 只 能 存 人 一 定量 的 加 
拿 大 分 到 每 一 个 节点 上 。 把 这 两 笔 总 数 加 起 来 就 得 到 能 够 存 人 的 分 币 的 总 数 的 界 。 

现在 稍微 详细 地 概述 我 们 的 计算 方案 。 我 们 将 按照 秩 来 划分 节点 。 把 秩 分 成 一 些 秩 组 。 
对 每 个 Find, 我 们 将 把 一 些 美 分 币 存 成 共同 的 储 金 ， 而 把 加 拿 大 分 币 存 到 一 些 特定 的 顶点 
上 。 为 了 计算 所 存储 的 加 拿 大 分 币 的 总 数 , 我 们 将 计算 每 个 节点 上 的 储量 。 通 过 将 秩 c 的 每 
一 个 节点 的 储 爹 加 起 来 , 我 们 得 到 每 个 秩 ~ 的 总 的 储量 。 然后 , 我 们 再 把 秩 组 g PEPE 
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的 所 有 储量 加 起 来 从 而 得 到 每 个 秩 组 g 的 总 的 储量 。 最 后 , 我 们 把 每 个 秩 组 g 的 所 有 储 金 加 
到 一 起 就 得 到 在 森林 中 存储 的 加 拿 大 分 币 的 总 数 。 把 这 笔 储 金 加 到 作为 共同 储 金 的 美 分 币 的 
数目 上 则 得 到 最 后 的 答案 。 





图 8-16 一 棵 大 的 不 相交 集 树 (节点 下 面 的 数 是 秩 ) 


我 们 将 把 秩 划分 成 组 。 秩 -~ 被 分 到 组 G(r), 而 G 将 在 后 面 确定 。 任 何 秩 组 g 中 最 大 的 
秩 为 F(g), 其 中 F = Ge G 的 道 。 于 是 , 在 任何 秩 组 g > 0 中 秩 的 个 数 是 F(g) - 
Fig - 1)。 显 然 , G(N) 是 最 大 秩 组 的 一 个 非常 宽松 的 上 界 。 作 为 一 个 例子 ， 假设 我 们 按照 
图 8-17 将 秩 分 组 。 在 这 种 情况 下 , G(r) =『Vr1。 在 组 g 中 的 最 大 的 秩 是 F(g) = 2°, 并 
观察 到 组 g > 0 包含 秩 F(g - 1) + 1 直到 F(g)。 这 个 公式 不 适用 秩 组 0, 因此 为 了 方便 ， 
我 们 将 保证 秩 组 0 只 包含 秩 为 0 的 元 素 。 注意, 这些 秩 组 是 由 一 些 连续 的 秩 构成 的 。 





我 们 以 前 提 到 过 只 要 每 个 根 记录 着 它 的 子 树 部 是 多 大 , 则 a & — À 
每 个 Union 指令 仅 花费 常数 时 间 。 因 此 ,就 本 证 明 而 言 ,Union | 。 ^ 
实际 上 是 不 花费 代价 的 。 ! e 

每 个 Find(i) 花 费 的 时 间 正比 于 从 代表 i 的 顶点 到 根 的 路 径 | 3 eee 
上 的 顶点 的 个 数 。 因 此 , 我 们 对 于 路 径 上 的 每 一 个 顶点 存 人 一 个 | ate ST 














分 币 。 不 过 , 如 果 这 就 是 我 们 所 做 的 全 部 , 那么 我 们 不 能 对 界 有 
更 多 的 要 求 ,因为 没有 利用 到 路 径 压缩 。 因 此 , 我 们 需要 在 分 析 SSN iis 
中 利用 路 径 压缩 。 我 们 将 使 用 想像 算账 (fancy accounting) 的 方法 。 BRN 

对 从 代表 i 的 顶点 到 根 的 路 径 上 的 每 一 个 顶点 v, 我 们 在 两 个 账户 之 一 存 人 一 个 分 币 : 

1. 如 果 o 是 根 , 或 者 v 的 父亲 是 根 , 或 者 o 的 父亲 在 与 不 同 的 秩 组 中 , 那么 在 该 法 则 

之 下 收取 一 个 单位 的 费用 , 这 就 需要 将 一 个 美 分 币 存 人 公共 储 金 中 。 

2. AW, 将 一 个 加 拿 大 分 币 存 人 该 顶点 中 。 

引 理 8.4 

对 于 任意 的 Find v) , 不 论 存 人 总 储 金 还 是 存 和 人 顶点 ,所存 分 币 的 总 数 恰好 等 于 从 v 到 
根 的 路 径 上 的 节点 的 个 数 。 

证 明 

显然。 

如 此 一 来 , 我 们 需要 做 的 就 是 把 在 法 则 1 下 存 人 的 所 有 的 美 分 币 和 在 法 则 2 下 存 人 的 所 


有 加 拿 大 分 币 加 起 来 。 
我 们 进行 最 多 M 次 Find。 我 们 需要 求 出 在 一 次 Find 中 能 够 存 人 公共 储 金 中 的 分 币 个 数 的 界 。 
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318 8.5 

经 过 整个 算法 , 在 法 则 1 下 美 分 币 总 的 存 人 量 总 计 为 M(G(N) + 2). 

证 明 

证 明 不 难 。 对 于 任意 的 Find, 由 于 有 根 和 它 的 儿子 , 因此 存 人 两 个 美 分 币 。 由 引 理 8. 3， 


沿路 径 向 上 分 布 的 节点 按 秩 单调 增 , 而 由 于 最 多 有 G(N) 个 秩 组 , 因此 对 任意 特定 的 Find, 
在 路 径 上 只 有 G(N) 个 其 他 节点 能 够 按照 法 则 1 存 人 分 币 。 于 是 , 在 任意 一 次 查找 期 间 最 多 
有 G(N) + 2 个 美 分 币 可 以 放 人 公共 储 金 中 。 因 此 , 在 法 则 1 下 , 连续 M 次 Find 最 多 可 以 
A M(G(N)+2) 个 美 分 币 。 


为 了 得 到 在 法 则 2 下 所 有 加 拿 大 分 币 存 人 量 的 理想 的 估计 值 , 我 们 将 把 按照 顶点 而 不 是 按照 


Find 指令 所 存 人 的 分 币 量 加 起 来 。 如 果 一 枚 硬币 在 法 则 2 下 存 人 项 点 v, 那么 v 将 通过 路 径 压 缩 
被 移动 并 得 到 具有 比 它 原来 的 父 节点 更 高 的 秩 的 新 的 父亲 。( 在 这 里 , 我 们 用 到 了 正在 进行 路 径 压 
缩 的 事实 ) 于 是 , BA g > 0 中 的 节点 v 在 它 的 父 节 点 被 推 离 秩 组 g 之 前 最 多 可 以 移动 F(g) — 
Flg - Dc, 因为 这 是 该 秩 组 的 大 小 .2 在 这 以 后 , 对 v 的 所 有 未 来 的 收费 均 按照 法 则 1 进行 。 





引 理 8.6 
秩 组 g > 0 中 顶点 的 个 数 V(g) 至 多 为 NF D, 
证 明 
由 引 理 8.2, 至 多 存在 NZ2' 个 秩 为 r 的 顶点 。 对 组 g 中 的 秩 求 和 , 我 们 得 到 
Fig) 
vo« > X 
m 
< YN 
S Aena? 
v 1 
< ip 
e heat 
1 
< Ror rz) 2 
< zin 
N 
< grano 
51323 8.7 


存 人 秩 组 g HRA DLL T A ORCI REGE E NF (g) 28 7 9 
证 明 
该 秩 组 的 每 一 个 顶点 当 它 的 父 节点 同 在 该 秩 组 时 最 多 可 以 接收 F(g) - Flg- DS 


F(g) 个 加 拿 大 分 币 ， 而 引 理 8.6 告诉 我 们 这 样 的 项 点 存在 的 个 数 。 通过 简单 的 乘法 可 以 得 
到 定理 的 结果 。 


引 理 8.8 

在 法 则 2 下 总 的 存 人 分 币 数 最 多 为 ND OO FG 2007? 个 加 拿 大 分 币 。 

证 明 

因为 秩 组 0 只 含有 秩 为 0 的 元 素 , 所 以 它 不 能 按照 法 则 2 接收 分 币 (这 样 的 元 素 在 该 秩 


O BATIMI Fi, 我 们 并 不 刻意 简化 ; 此 处 的 界 不 是 经 过 仔细 改进 的 界 。 
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组 中 不 可 能 有 父 节 点 )。 在 通过 将 其 他 秩 组 求 和 则 可 得 到 引 理 指出 的 界 。 
这 样 , 我 们 就 得 到 在 法 则 1 和 法 则 2 下 存 人 的 分 币 数 , 该 总 数 为 


M(G(N) + 2) + NS F(g)/2F4-9 (8.1) 

我 们 还 没有 指定 GIN) REAM FCN). SR. 我 们 实际 上 可 以 自由 选择 我 们 想 要 的 任 

何 函 数 , 但 是 它 应 使 得 选择 G(N) 极 小 化 上 面 的 界 有 意义 。 不 过 , 若是 GCN) A, 则 

FE(N ) 就 会 很 大 , 这 就 影响 到 我 们 的 界 。 一 个 明显 的 理想 选择 是 选取 F(i) 为 由 F(0) = 0 和 

FG) = 2F4 - 1) 递归 定义 的 函数 。 于 是 得 到 G(N) = 1 *Llog' Nj。 图 8-18 显示 秩 是 如 

何 由 此 而 划分 的 。 注 意 , 组 0 只 包含 秩 0, 这 是 我 们 在 前 面 引 理 中 要 求 的 。F 非常 类 似 于 单 
值 Ackermann 函数 , 它们 只 在 基准 情形 的 定义 上 有 所 不 同 (F(0) = 1)。 























定理 8.1 la R 1 

M 次 Union 和 Find 的 运行 时 间 为 O(M log? N)。 0 " 

证 明 2 2 

把 已 和 G 的 定义 插 人 到 方程 8.1 中 , 美 分 币 的 总 数 为 O(MG | 3 5 
(ND) = OCM log? N) ,加拿大 分 币 的 总 数 为 Ne paren | ie dA NM 
= NX te NGUN) = O(N lg! N) o EE M = CN), Bj LT mene 
得 出 定理 的 界 。 图 8-18 在 证 明 中 用 到 的 


我 们 的 分 析 指 出 , 能够 通过 路 径 压 缩 经 常 移动 的 节点 很 少 ， ”将 秩 分 成 秩 组 的 实际 划分 
从 而 总 的 时 间 花 费 相对 要 少 。 


87 一 个 应 用 


作为 怎样 可 以 使 用 该 数据 结构 的 一 个 例子 , 考虑 下 面 的 问题 。 我 们 有 一 个 计算 机 网 络 和 
一 个 双向 连接 表 ; 每 一 个 连接 可 将 文件 从 一 台 计 算 机 传送 到 另 一 台 计 算 机 。 那 么 , 能 否 将 一 
个 文件 从 网 络 上 的 任意 一 台 计算 机 发 送 到 任意 的 另 一 台 计算 机 上 去 呢 ? 一 个 附加 的 限制 是 要 
求 该 问题 必须 联机 (on-line) 解 决 。 因 此 ,这 个 连接 表 要 一 次 一 个 地 给 出 ， 而 算法 则 必须 能 够 
在 任 一 时 刻 给 出 答案 。 

解决 这 个 问题 的 一 个 算法 可 以 在 开始 时 把 每 一 台 计 算 机 放 到 它 自己 的 集合 中 。 我 们 要 求 
晴 台 计算 机 可 以 传输 文件 当 且 仅 当 它们 在 同一 个 集合 中 。 可 以 看 出 ,传输 文件 的 能 力 形成 一 
个 等 从 关系。 此 时 我 们 一 次 一 个 地 读 人 连接 。 当 我 们 读 入 某 个 连接 比如 ("，") 时 ,我 们 测试 
是 否 u Mo 在 同一 个 集合 中 , 如 果 它 们 在 同一 个 集合 中 则 什么 也 不 做 。 如 果 它 们 在 不 同 的 集 
合 中 ,那么 我 们 将 它们 所 在 的 两 个 集合 合并 。 在 算法 的 最 后 ， 所 得 到 的 图 连通 当 且 仅 当 恰好 
存在 一 个 集合 。 如 果 存 在 M 个 连接 和 NN 台 计算 机 , 那么 空间 的 需求 则 是 O(N)。 使 用 按 大 
小 求 并 和 路 径 压缩 的 方法 , 我 们 得 到 最 坏 情 形 运行 时 间 为 O(M a (M. ND), 因为 存在 2M 
次 Find 和 至 多 N - 1 次 Union。 这 个 运行 时 间 在 实用 中 是 线性 的 。 

在 下 一 章 我 们 将 会 看 到 一 个 好 得 多 的 应 几 。 


总 结 
我 们 已 经 看 到 保持 不 相交 集合 的 非常 简单 的 数据 结构 。 当 Union 操作 执行 时 ， 就 正确 性 
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而 言 , 哪个 集合 保留 它 的 名 字 是 无 关 紧 要 的 。 这 里 ， 有 必要 注意 , 当 某 一 步 尚未 完全 指定 的 
时 候 , 考虑 选择 方案 可 能 是 非常 重要 的 。Union 是 灵活 的 ; 借助 这 一 点 , 我 们 能 够 得 到 一 个 
有 效 得 多 的 算法 。 
278 路 径 压缩 是 自 调整 (self-adjustment) 的 最 早 形式 之 一 , 我 们 已 经 在 别 的 一 些 地 方 (伸展 树 ， 
jo 斜 堆 ) 见 到 过 。 它 的 使 用 非常 有 趣 , 特别 是 从 理论 的 观点 来 看 ,因为 它 是 算法 简单 但 最 坏 情 
形 分 析 却 并 不 这 么 简单 的 第 一 批 例子 之 一 。 


练习 


8.1 指出 下 列 一 系列 指令 的 结果 : Union(1, 2), Union(3, 4), Union(3, 5), Union(1, 
7), Union(3, 6), Union(8, 9), Union(1, 8), Union(3, 10), Union(3, 11), U- 
nion(3, 12), Union(3, 13), Union(14, 15), Union(16, 17), Union(14, 16), U- 
nion(1, 3), Union(1, 14), “4 Union 是 
a. 任意 进行 的 。 

b. 按 高 度 进行 的 。 
c. 按 大 小 进行 的 。 

8.2 ”对 于 上 题 中 的 每 一 棵 树 ,用 对 最 深 节 点 的 路 径 压缩 执行 一 次 Find。 

8.3 编写 一 个 程序 来 确定 路 径 压 缩 法 和 各 种 求 并 方法 的 效果 。 你 的 程序 应 该 使 用 所 有 
六 种 可 能 的 方法 处 理 一 系列 等 价 操作 。 

8.4 证明， 如果 Union 按照 高 度 进行 , 那么 任意 一 棵 树 的 深度 则 为 O(log N)。 

8.5 a. 证 明 如 果 M = N?, 那么 M 次 Union/Find 操作 的 运行 时 间 是 O(M)。 

b. 证 明 , 如 果 M = N log N, 那么 M 次 Union/Find 操作 的 运行 时 间 是 O( M)。 
we. BEM =O (N log log N), Jl M 次 Union/Find 操作 的 运行 时 间 是 多 少 ? 
«d. WM = O(N log" N), 则 M 次 Union/Find 操作 的 运行 时 间 是 多 少 ? 

8.6 指出 8.7 节 中 的 程序 对 下 图 的 操作 : (1, 2), (3, 4), (3, 6), (5, 7), (4, 6), Q, 
4), (8, 9), (5, 8)。 连 通 分 支 都 是 什么 ? 

8.7 ”编写 一 个 程序 实现 8.7 节 的 算法 。 

,8.8 ”假设 我 们 想 要 添加 一 个 附加 的 操作 Deunion , 它 废除 尚未 被 废除 的 最 后 的 Union 操 
作 。 
a. 证 明 : 如 果 我 们 按 高 度 求 并 以 及 不 用 路 径 压缩 进行 Find, 那么 Deunion 操作 容 
易 进行 并 且 连 续 M 次 Union, Find 和 Deunion 操作 花费 OCM log N) 时 间 。 
b. 为 什么 路 径 压缩 使 得 Deunion 很 难 进行 ? 
x «c. 指出 如 何 实现 所 有 三 种 操作 使 得 连续 M 次 操作 花费 O(M log N /og log N) 时 
间 。 

8.9 ”假设 我 们 想 要 添加 一 种 额外 的 操作 Remove( X) , 该 操作 把 X 从 当前 的 集合 中 除去 
并 把 它 放 到 它 自己 的 集合 中 。 指 出 如 何 修改 Union/Find 算法 使 得 连续 M 次 
Union、Find、 和 Remove 操作 的 运行 时 间 为 O(M a(M, N))o 

228.10 给 出 一 个 算法 以 一 棵 N 顶点 树 和 NN 对 顶点 作为 输入 ， 对 每 对 顶点 (v， 忆 ) 确 定 v 
和 ne 的 最 近 的 公共 祖先 。 你 的 算法 应 该 以 O(N log” N) 时 间 运 行 。 
«8.11 证 明 , 如 果 所 有 的 Union 都 在 Find 之 前 ， 那么 使 用 路 径 压 缩 的 不 相交 集 算法 需要 
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线性 时 间 , 即使 Union 是 任意 进行 的 也 是 如 此 。 
* «8.12 证 明 , 如 果 诸 Union 操作 任意 进行 , 但 路 径 压 缩 是 对 Find 进行 , 那么 最 坏 情形 运 
行 时 间 为 8 (M log N)。 

8.13 证 明 , 如 果 Union 按 大 小 进行 且 执 行路 径 压 缩 , 那么 最 坏 情形 运行 时 间 为 OCM 
log* N). 

8.14 设 我 们 通过 使 在 从 i 到 根 的 路 径 上 的 每 一 个 其 他 节点 指向 它 的 祖父 ( 当 有 意义 时 ) 
以 实现 对 Find( i) 的 偏 路 径 压 缩 (partial path compression)。 这 叫做 路 径 平 分 (path 
halving)。 

a. 编写 一 个 过 程 完 成 上 述 工作 。 
b. 证 明 , 如 果 对 诸 Find 操作 进行 路 径 平分 , 则 不 论 使 用 按 高 度 求 并 还 是 按 大 小 求 
JF. 其 最 坏 情形 运行 时 间 缘 为 O( M log? N)。 
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第 9 章 图 论 算 法 


在 这 一 章 , 我 们 讨论 图 论 中 几 个 一 般 的 问题 。 这 些 算法 不 仅 在 实践 中 有 用 , 而 且 因 为 在 
许多 实际 生活 的 应 用 中 , 若 不 仔细 注意 数据 结构 的 选择 将 导致 速度 过 慢 , 所 以 这 些 算法 还 是 
非常 有 趣 的 。 我们 将 

* 介绍 几 个 现实 生活 中 发 生 的 问题 , 它们 可 以 转化 成 图 论 问题 。 

。 给 出 一 些 算法 以 解决 几 个 普通 的 图 论 问 题 。 

。 指出 适当 选择 数据 结构 可 以 极 大 地 降低 这 些 算法 的 运行 时 间 。 

。 介绍 一 个 被 称 为 深度 优先 搜索 (depth-first search) 的 重要 技巧 , 并 指出 它 如 何 能 够 以 

线性 时 间 求 解 若干 表面 上 复杂 的 问题 。 


9.1 若干 定义 


-个 图 (graph)G = (V. E) HAA (vertex) SE. V 和 边 (edge) 集 EE 组成。 每 一 条 边 就 是 
一 个 点 对 (v, w), P v, w €. V。 有 时 也 把 边 称 做 弧 (arc)。 如 果 点 对 是 有 序 的 , 那么 图 就 
叫做 是 有 向 的 (directed)。 有 向 的 图 有 时 也 叫做 有 向 图 (digraph)。 DUR v 和 te 邻接 (adjacent) 
当 且 仅 当 (w，w) € E。 在 一 个 具有 边 (v, w) 从 而 其 有 边 (w， v) 的 无 向 图 中 ，w 和 w 邻接 
Hu 也 和 ww 邻接 。 有 了 时候 边 还 具有 第 三 种 成 分 , 称 做 权 (weight) 或 值 (cost)。 

图 中 的 一 条 路 径 (path) 是 一 个 顶点 序列 wy, wry ws, oe wy, 使 得 (wi, wis) € 
E, 1 i < No 这 样 一 条 路 径 的 长 (length) 是 该 路 径 上 的 边 数 , EFF N - 1。 从 一 个 顶点 到 
它 自身 可 以 看 成 是 一 条 路 径 ; 如 果 路 径 不 包含 边 , 那么 路 径 的 长 为 0。 这 是 定义 特殊 情形 的 
一 种 方便 的 方法 。 如 果 图 含有 一 条 从 一 个 顶点 到 它 自身 的 边 (u,v), 那么 路 径 v, v 有 时候 
也 叫做 一 个 环 (loop)。 我 们 要 讨论 的 图 一 般 将 是 无 环 的 。 一 条 简单 路 径 是 这 样 一 条 路 径 , 其 上 
的 所 有 顶点 都 是 互 异 的 , 但 第 一 个 顶点 和 最 后 一 个 顶点 可 能 相同 。 

有 向 图 中 的 图 (cycle) 是 满足 wy) = wy 且 长 至 少 为 1 的 一 条 路 径 ; 如 果 该 路 径 是 简单 路 
径 , 那么 这 个 圈 就 是 简单 圈 。 对 于 无 向 图 , 我 们 要 求 边 是 互 异 的 。 这 些 要 求 的 根据 在 于 无 向 
图 中 的 路 径 u,v，u 不 应 该 被 认为 是 圈 , BOR Cu, vd) Av, ) 是 同一 条 边 。 但 是 在 有 向 图 
中 它们 是 两 条 不 同 的 边 , 因此 称 它们 为 轿 是 有 意义 的 。 如 果 一 个 有 向 图 没有 图 , 则 称 其 为 无 
图 的 (acyclic)。 一 个 有 向 无 圈 图 有 时 也 简称 为 DAG。 

如 果 在 一 个 无 向 图 中 从 每 一 个 顶点 到 每 个 其 他 顶点 都 存在 一 条 路 径 , 则 称 该 无 向 图 是 连 
通 的 (connected)。 具 有 这 样 性 质 的 有 向 图 称 为 是 强 连通 的 (strongly connected)。 如 果 一 个 有 
向 图 不 是 强 连通 的 , 但 是 它 的 基础 图 (underlying graph), 即 其 弧 上 去 掉 方向 所 形成 的 图 ， 是 
连通 的 , 那么 该 有 向 图 称 为 是 弱 连 通 的 (weakly connected)。 完 全 图 (complete graph) 是 其 每 一 
对 顶点 间 都 存在 一 条 边 的 图 。 

现实 生活 中 能 够 用 图 进行 模拟 的 一 个 例子 是 航空 系统 。 每 个 机 场 是 一 个 顶点 ， 在 由 两 个 
顶点 表示 的 机 场 间 如 果 存 在 一 条 直达 航线 ,那么 这 两 个 顶点 就 用 一 条 边 连 接 。 边 可 以 有 一 个 
Bu. 表示 时 间 、 距离 或 飞行 的 费用 。 有 理由 假设 , 这 样 的 一 个 图 是 有 向 图 ， 因为 在 不 同 的 方向 
上 飞行 可 能 所 用 时 间或 所 花 的 费用 会 不 同 (例如 , 依赖 于 地 方 税 )。 可 能 我 们 更 愿意 航空 系统 
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是 强 连 通 的 , 这样 就 总 能 够 从 任 一 机 场 飞 到 另外 的 任意 一 个 机 场 。 我 们 也 可 能 愿意 迅速 确定 
任意 两 个 机 场 之 间 的 最 佳 航线 。“ 最 佳 "可 以 是 指 边 数 最 少 的 路 径 , 也 可 以 是 根据 一 种 或 所 有 
的 权重 量度 所 算出 的 最 佳 者 。 

交通 流 可 以 用 一 个 图 来 模型 化 。 每 一 条 街道 交叉 口 表 示 一 个 项 点 , 而 每 一 条 街道 就 是 一 
条 边 。 边 的 值 可 能 代表 速度 限度 , 或 是 容量 (车 道 的 数目 ) 等 等 。 此 时 我 们 可 能 需要 找 出 一 条 
最 短路 , 或 用 该 信息 找 出 最 可 能 产生 交通 瓶颈 的 位 置 。 

在 本 章 的 其 余部 分 , 我 们 将 考查 图 论 的 几 个 更 多 的 应 用 , 这 些 图 中 许多 可 能 是 相当 巨大 
的 , 因此 , 我 们 使 用 的 算法 的 效率 是 非常 重要 的 。 
9.1.1 图 的 表示 

我 们 将 考虑 有 向 图 (无 向 图 可 类 似 表示 )。 

现在 假设 可 以 从 1 开始 对 顶点 编号 。 图 9-1 中 所 示 的 图 含有 7 个 顶点 和 12 条 边 。 








图 9-1 一 个 有 向 图 
表示 图 的 一 种 简单 的 方法 是 使 用 一 个 二 维 数 组 ， 称 为 邻接 短 阵 (adjacency matrix) 表 示 
法 。 对 于 每 条 边 (u, v), 我 们 置 A[u][v] = 1; 否则 , 数组 的 元 素 就 是 0。 如 果 边 有 一 个 权 ， 


BARTUR Alu ][ v] 等 于 该 权 ， 而 使 用 一 个 很 大 或 者 很 小 的 权 作 为 标记 表示 不 存在 的 
y. 例如 ,如果 我 们 寻找 最 便宜 的 航空 路 线 , 那么 我 们 使 用 表示 不 存在 的 航线 。 如 果 出 于 
某 种 原因 我 们 寻找 最 昂贵 的 航空 路 线 , 那 么 我 们 可 以 用 值 - (或 者 也 许 使 用 0) 来 表示 不 存 
在 的 边 。 

虽然 这 么 表示 的 优点 是 非常 简单 , 但是, 它 的 空间 需求 则 为 8(| VI), 如 果 图 的 边 不 是 
很 多 , 那么 这 种 表示 的 代价 就 太 大 了 。 HEEM E H (dense): |E] = OU VI), 则 邻接 矩阵 
是 合适 的 表示 方法 。 不 过 , 在 我 们 将 要 看 到 的 大 部 分 应 用 中 , 情况 并 不 如 此 。 例如 , 设 用 图 表 
示 一 个 街道 地 图 , 街道 的 方向 旦 曼哈顿 式 , 其 中 几乎 所 有 的 街道 或 者 南北 向 , 或 者 东西 向 。 
因此 , 任 一 路 口 大 致 都 有 四 条 街道 , 于 是 , 如果 图 是 有 向 图 且 所 有 的 街道 都 是 双向 的 , JUL LE I 
之 A| Vlo 如 果 有 3000 个 路 口 , 那么 我 们 就 得 到 一 个 3 000 个 顶点 的 图 , 该 图 有 12000 条 边 ， 
它们 需要 一 个 大 小 为 9000 000 的 数组 。 该 数组 的 大 部 分 元 素 将 是 0。 这 从 直观 看 来 很 粳 , A 
为 我 们 想 要 我 们 的 数据 结构 表示 那些 实际 存在 的 数据 ， 而 不 是 去 表示 不 存在 的 数据 。 

如 果 图 不 是 稠密 的 , 换 句 话说 , NR PAIL 46 I H (sparse), 则 更 好 的 解决 方法 是 使 用 邻接 
表 (adjacency list) 表 示 。 对 每 一 个 顶点 ， 我 们 使 用 一 个 表 存 放 所 有 邻接 的 顶点 。 此 时 的 空间 需 
求 为 O(|E| + |V1)。 图 9-2 最 左边 的 结构 只 是 头 单元 (header cell) 的 数组 。 这 种 表示 方法 
从 图 9-2 可 以 清楚 地 看 出 。 如 果 边 有 权 ， 那么 这 个 附加 的 信息 也 可 以 存储 在 单元 中 。 
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图 9-2 图 的 邻接 表 表 示 法 


邻接 表 是 表示 图 的 标准 方法 。 无 向 图 可 以 类 似 地 表示 ; 每 条 边 (u,v) 出 现在 两 个 表 中 , 因 
此 空间 的 使 用 基本 上 是 双 倍 的 。 在 图 论 算法 中 通常 需要 找 出 与 某 个 给 定 顶 点 v 邻接 的 所 有 的 顶 
点 。 而 这 可 以 通过 简单 地 扫描 相应 的 邻接 表 来 完成 , 所 用 时 间 与 这 些 顶 点 的 个 数 成 正比 。 

在 大 部 分 实际 应 用 中 顶点 都 有 名 字 而 不 是 数字 , 这 些 名 字 在 编译 时 是 未 知 的 。 由 于 我 们 
不 能 通过 未 知名 字 为 一 个 数组 做 索引 , 因此 我 们 必须 提供 从 名 字 到 数字 的 映射 。 完 成 这 项 工 
作 最 容易 的 方法 是 使 用 散 列表 ,在 该 散 列表 中 我 们 对 每 个 顶点 存储 一 个 名 字 以 及 一 个 范围 在 
1 到 |V | 之 间 的 内 部 编号 。 这些 编 号 在 图 被 读 入 的 时 候 指定 。 指 定 的 第 一 个 数 是 1。 在 每 条 边 
被 输入 时 , 我 们 检查 是 否 它 的 两 个 顶点 都 已 经 指定 了 一 个 数 , 检查 的 方法 是 看 是 否 顶 点 在 散 
列表 中 。 如 果 在 , 那么 我 们 就 使 用 这 个 内 部 编号 , 大 则 , 我 们 将 下 一 个 可 用 的 编号 分 配给 该 
顶点 并 把 该 项 点 的 名 字 和 对 应 的 编号 插入 到 散 列 表 中 。 

经 过 这 样 的 变换 , 所 有 的 图 论 算法 都 将 只 使 用 内 部 编号 。 由 于 最 终 我 们 还 是 要 输出 顶点 
的 名 字 而 不 是 这 些 内 部 编号 , 因此 对 于 每 一 个 内 部 编号 我 们 必须 记录 相应 的 顶点 名 
记录 方法 是 使 用 字符 申 数组 。 如 果 项 点 名 字 长 那 就 要 花费 大 量 的 空间 ,因为 项 点 的 名 字 要 
存 两 次 。 另 一 种 方法 是 保留 一 个 指向 散 列表 内 的 指针 数组 ,这 种 方法 的 代价 是 稍微 损失 散 列 
表 ADT 的 纯洁 性 ( 散 列表 的 元 素 就 不 是 通过 基本 的 散 列表 操作 来 访问 了 )。 

本 章 中 的 代码 将 尽 可 能 使 用 ADT 的 伪 代 码 。 我 们 这 么 做 将 节省 空间 ,当然 , 也 使 得 算法 
的 运算 表达 式 更 清晰 。 


9.2 拓扑 排序 


拓扑 排序 是 对 有 向 无 圈 图 的 顶点 的 一 种 排序 , 它 使 得 如 果 存 在 一 条 从 vi 到 vv 的 路 径 ， 
那么 在 排序 中 v, 出 现在 v; 的 后 面 。 在 图 9-3 中 的 图 表示 迈阿密 州立 大 学 的 课程 结构 。 有 向 边 
(v, w) RRE v 必须 在 课程 w 选修 前 修 完 。 这 些 课程 的 拓扑 排序 不 会 破坏 课程 结构 要 求 
的 任意 课程 序列 。 

显然 , 如 果 图 含有 图 , 那么 拓扑 排序 是 不 可 能 的 , 因为 对 于 图 上 的 两 个 顶点 v Mw, v 
ACT w 同时 也 又 先 于 v。 此 外 , 排序 不 必 是 惟一 的 ; 任何 合理 的 排序 都 是 可 以 的 。 在 图 9-4 
IH, vis v. Us. Va. U3, V7, Ug Hl Vi, Ui. Us. Ua. V. V3, Ve 两 个 都 是 拓扑 排序 。 





l 
[286 











图 9.3 表示 课程 结构 的 无 图 图 9.4 一 个 无 图 图 


一 个 简单 的 求 拓扑 排序 的 算法 是 先 找 出 任意 一 个 没有 入 边 的 项 点。 然后 我 们 显示 出 该 项 
点 , 并 将 它 和 它 的 边 一 起 从 图 中 删除 。 然 后 , 我们 对 图 的 其 余部 分 应 用 同样 的 方法 处 理 。 

为 了 将 上 述 方法 形式 化 , 我 们 把 项 点 v 的 入 度 (indegree) 定 义 为 边 (u,v) 的 条 数 。 我 们 
计算 图 中 所 有 顶点 的 人 度 。 假设 Indegree 数组 被 初始 化 且 图 被 读 人 一 个 邻接 表 中 , 则 此 时 我 
们 可 以 应 用 图 9-5 中 的 算法 生成 一 个 拓扑 排序 。 





void 
Topsort( Graph G ) 
{ 


‘int Counter; 
Vertex V, Wi 


for( Counter = 0; Counter < NumVertex: Counter++ ) 
{ 


V = FindNewVertexOf IndegreeZero( ); 
if ( V == NotAVertex ) 
4 
Error( “Graph has a cycle” ); 
break: 


} 

TopNum[ V J = Counter; 

for each W adjacent to V 
Indegree( W --: 











图 9-5 简单 的 拓扑 排序 伪 代 码 


函数 FindNewVertexOfIndegreeZero 扫描 Indegree 数组 ,寻找 一 个 尚未 被 分 配 拓扑 编号 
的 人 度 为 0 的 顶点 。 如 果 这 样 的 顶点 不 存在 , 那么 它 返回 NorAVertex; 这 就 意味 着 该 图 有 图 。 

因为 FindNewVertexOfIndegreeZero 是 对 Indegree 数组 的 一 个 简单 的 顺序 扫描 ， 所 以 每 
次 对 它 的 调用 都 花费 OO V 1) 时间。 由 于 有 | V1 次 这 样 的 调用 , 因此 该 算法 的 运行 时 间 为 
O(IVI2). 

通过 更 仔细 地 注意 该 数据 结构 我 们 可 以 做 得 更 好 。 运行 时 间 长 的 原因 在 于 对 Indegree 数 
组 的 顺序 扫描 。 如果 图 是 稀疏 的 , 那么 在 每 次 欠 代 期 间 只 有 一 些 顶 点 的 入 度 被 更 新 。 然而 ， 
虽然 只 有 一 小 部 分 发 生变 化 , 但 在 搜索 入 度 为 0 的 顶点 时 我 们 (潜在 地 ) 查 看 了 所 有 的 顶点。 
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我 们 可 以 通过 将 所 有 (未 分 配 拓扑 编号 ) 入 度 为 0 的 顶点 放 在 一 个 特殊 的 盒子 中 而 避免 这 
种 无 效 的 劳动 。 此 时 FindNewVertexOfIndegreeZero 函数 返回 (并 删除 ) 盒 子 中 的 任 一 顶点 。 当 
我 们 降低 这 些 邻 接 项 点 的 人 度 时 , 检查 每 一 个 顶点 并 在 它 的 入 度 降 为 0 时 把 它 放 入 盒子 中 。 

















为 实现 这 个 盒子 , 我 们 可 以 使 用 一 个 栈 CL 
或 队列 。 首 先 , 对 每 一 个 顶点 计算 它 的 入 度 。 | m 1 02 3 4 s 6 7 
然后 , 将 所 有 信 度 为 0 的 项 点 放 人 一 个 初始 ^ 0? 2 22 2 ?* 2 
为 空 的 队列 中 。 当 队列 不 空 时 , 删除 一 个 项 | om 200 1 1 0 0 0 
Av 并 将 与 v 邻接 的 所 有 的 项 点 的 人 度 碱 | 2 1 1 8 0 0 0 
1, 只 要 一 个 顶点 的 人 度 降 为 0, 就 把 该 项 点 | oz eh eee ee a eee tae 
放 入 队列 中 。 此 时 , 拓扑 排序 就 是 顶点 出 队 | AR xw wee n 
的 顺序 。 图 9-6 显示 每 一 阶段 之 后 的 状态 。 POCECEE ORT EC am^ 





























这 个 算法 的 伪 代 码 实现 在 图 9-7 中 给 
出 。 和 前 面 一 样 , 我 们 将 假设 图 已 经 被 读 到 O6 对 图 94 中 的 图 应 用 拓扑 排序 的 结果 
一 个 邻接 表 中 且 入 度 已 计算 并 被 放 入 一 个 数组 内 。 在 实践 中 做 这 件 工作 的 方便 方法 通常 是 把 每 
一 个 顶点 的 人 度 放 入 头 单元 中 。 我 们 还 假设 有 一 个 数组 TopNum , 该 数组 存放 的 是 拓扑 编号 。 








void 
Topsort( Graph G ): 
{ 
Queue Qi 
int Counter = 0; 
Vertex V, W; 
yey Q = CreateQueue( NumVertex ); MakeEmpty( Q ); 
7 24/ for each vertex V 
ye 3] if( Indegree[ V ] == 0 ) 
/* an Enaueue( V, Q2: 
pus while( !IsEmpty( Q ) ) 
{ 
/* 6*/ V = DequeueC Q ); 
Ir TopNum[ V ) = ++Counter; /*Assign next number */ 
/* 8*/ for each W adjacent to V 
/* 9*7 if( --Indegree( W ] == 0) 
/*10*7 Enqueue( W, Q2; 
) 
Dow if ( Counter !- NumVertex ) 
725 Error( "Graph has a cycle" ); 
fnis DisposeQueue( Q ); /* Free the memory */ 
) 








图 9-7 施行 拓扑 排序 的 伪 代码 
如 果 使 用 邻接 表 , 那么 执行 这 个 算法 所 用 的 时 间 为 O(|E| + |V1)。 当 认识 到 for 循 环 
体 对 每 条 边 顶 多 执行 一 次 时 , 这 个 结果 是 明显 的 。 队 列 操作 对 每 个 顶点 最 多 进行 一 次 , 而 初 
始 化 各 步 花费 的 时 间 也 和 图 的 大 小 成 正比 。 


9.3 ”最 短路 径 算法 
这 一 节 我 们 考查 各 种 最 短路 径 问题 。 输入 是 一 个 赋 权 图 : 与 每 条 边 ( vw;，w) 相 联系 的 是 
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穿越 该 弧 的 代价 (或 称 为 值 )ci.,。 一 条 路 径 wva… uy 的 值 是 之 > ci, iua, 叫做 赋 权 路 径 长 
(weighted path length). fff 2428842 K (unweighted path length) 只 是 路 径 上 的 边 数 , BIN - 1。 

单 源 最 短路 径 问 题 : 

给 定 一 个 赋 权 图 G = (V，E) 和 一 个 特定 顶点 s 作为 输入 , REA s SIG 中 每 一 个 其 他 
项 点 的 最 短 赋 权 路 径 。 

例如 , 在 图 9-8 的 图 中 , 从 vi 到 os 的 最 短 赋 权 路 径 的 值 为 6, 它 是 从 vi 到 vs 到 o; 再 
到 ve 的 路 径 。 在 这 两 个 顶点 间 的 最 短 无 权 路 径 长 为 2。 一 般 说 来 ， 当 不 指明 我 们 讨论 的 是 赋 
权 路 径 还 是 无 权 路 径 时 ,如 果 图 是 赋 权 的 , 那么 路 径 就 是 赋 权 的 。 还 要 注意 , 在 图 9-8 的 图 
中 , 从 ve 到 vi 没有 路 径 。 

前 面 例子 中 的 图 没有 负 值 的 边 。 图 9-9 中 的 图 指出 负 边 的 问题 可 能 产生 。 从 vs 到 va 的 
路 径 的 值 为 1, 但 是 , 通过 下 面 的 循环 vs, va. vo. vs, va 存在 一 条 最 短路 径 , 它 的 值 是 - 5。 
这 条 路 径 仍然 不 是 最 短 的 ， 因 为 我 们 可 以 在 循环 中 滞留 任意 长 。 因 此 , 在 这 两 个 顶点 间 的 最 
短路 径 问 题 是 不 确定 的 。 类似 地 , 从 v 到 ve 的 最 短路 径 也 是 不 确定 的 , 因为 我 们 可 以 进入 
同样 的 循环 。 这 个 循环 叫做 负 值 图 (negative-cost cycle); 当 它 出 现在 图 中 时 , 最短 路径 问题 就 
是 不 确定 的 。 有 负 值 的 边 未 必 就 是 坏事 , 但 是 它们 的 出 现 似乎 使 问题 增加 了 难度 。 为 方便 起 
见 , 在 没有 负 值 圈 时 , 从 s 到 * 的 最 短路 径 为 0。 





Hos 有 向 图 G 图 9-9 带 有 负 值 图 的 图 


有 许多 的 例子 使 我 们 要 去 求解 最 短路 径 问 题 。 如 果 顶 点 代表 计算 机 ; 边 代表 计算 机 问 的 
链接 ; 值 表示 通信 的 花费 (每 1 000 字 节 数 据 的 电话 费 )， 延 迟 成 本 (传输 1 000 字 节 所 需要 的 
秒 数 ) 或 它们 和 一 些 其 他 因素 的 组 合 , 那么 我 们 可 能 利用 最 短路 问题 来 找 出 从 一 台 计 算 机 向 
一 组 其 他 计算 机 发 送 电子 新 闻 的 最 便宜 的 方法 。 

我 们 可 能 使 用 图 为 航线 或 其 他 大 规模 运输 路 线 建立 模型 并 利用 最 短路 径 算法 计算 两 点 问 
的 最 佳 路 线 。 在 类 似 这 样 的 许多 实际 的 应 用 中 , 我 们 可 能 想 要 找 出 从 一 个 顶点 s 到 另 一 个 项 
点 4 的 最 短路 径 。 当 前 , 还 不 存在 找 出 从 s 到 一 个 项 点 的 路 径 比 找 出 从 > 到 所 有 项 点 路 径 更 
快 ( 快 多 于 一 个 常数 因子 ) 的 算法 。 

我 们 将 考查 求解 该 问题 四 种 形态 的 算法 。 首先 , 我 们 要 考虑 无 权 最 短路 径 问 题 并 指出 如 
何以 O(IE| + |V|) 时 间 解 决 它 。 其 次 , 我 们 还 要 介绍 , 如 果 假设 没有 负 边 ， 那么 如 何 求解 
赋 权 最 短路 径 问 题 。 这 个 算法 在 使 用 合理 的 数据 结构 实现 时 的 运行 时 间 为 O(|E| log IV). 

如 果 图 有 负 边 ,我 们 将 提供 一 个 简单 的 解法 ， 不 过 它 的 时 间 界 不 理想 ， 为 
OUEL + | Vio 最 后 ， 我 们 将 以 线性 时 间 解 决 无 图 图 的 特殊 情形 下 的 赋 权 的 问题 。 

9.3.1 无 权 最 短路 径 
图 9-10 表示 一 个 无 权 的 图 Go 使 用 某 个 顶点 s 作为 输入 参数 ， 我 们 想 要 找 出 从 s 到 所 有 
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其 他 项 点 的 最 短路 径 。 我 们 只 对 包含 在 路 径 中 的 边 数 有 兴趣 , 因此 在 边 上 不 存在 权 。 显然 ， 
这 是 赋 权 最 短路 径 问题 的 特殊 情形 , 因为 我 们 可 以 为 所 有 的 边 都 赋 以 权 1。 








图 9-10 -SKRA HH G 


现在 假设 我 们 只 对 最 短路 径 的 长 而 不 是 具体 的 路 径 本 身 有 兴趣 。 记 录 实 际 的 路 径 只 不 过 


是 简单 的 短 记 问题 。 
设 我 们 选择 s 为 ma。 此 时 立刻 可 以 说 出 从 * 到 vs 的 最 短路 径 是 长 为 0 的 路 径 。 把 这 个 信息 做 


个 标记 , 得 到 图 9-11。 





图 9-11 将 开始 节点 标记 为 通过 0 条 边 可 以 到 达 的 节点 后 的 图 


现在 我 们 可 以 开始 寻找 所 有 与 s 距离 为 1 的 顶点 。 这 些 顶点 通过 考查 与 邻接 的 那些 顶 
点 可 以 找到 。 此 时 我 们 看 到 ，u 和 v 与 出 发 只 有 一 边 之 遇 。 我 们 把 它 表示 在 图 9-12 中 。 














图 9-12 找 出 所 有 从 s 出 发 路 径 长 为 1 的 顶点 之 后 的 图 292| 








现在 可 以 开始 找 出 那些 从 s 出 发 最 短路 径 恰 为 2 的 顶点 ， 我 们 找 出 所 有 邻接 到 w 和 ve 
的 顶点 (距离 为 1 处 的 项 点), 它们 的 最 短路 径 还 不 知道 。 这 次 搜索 告诉 我 们 , 到 v2 和 va 的 
最 短路 径 长 为 2。 图 9-13 显示 到 现在 为 止 已 经 做 出 的 工作 。 
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图 9-13 找 出 所 有 从 s 出 发 路 径 长 为 2 的 顶点 之 后 的 图 


最 后 , 通过 考查 那些 与 刚 被 赋值 的 v 和 vs 相 邻 的 项 点 我 们 可 以 发 现 ，vs 和 v; 各 有 一 
条 三 边 最 短路 径 。 现 在 所 有 的 顶点 都 已 经 被 计算 , 图 9-14 显示 算法 的 最 后 结果 - 





图 9-14 最 后 的 最 短路 径 


这 种 搜索 一 个 图 的 方法 称 为 广度 优先 搜索 (breadth-first 
search)。 该 方法 按 层 处 理 顶 点 ; 距 开始 点 最 近 的 那些 顶点 首先 被 | 
赋值 ,而 最 远 的 那些 顶点 最 后 被 赋值 。 这 很 像 对 树 的 层 序 遍 历 n 
(level-order traversal) 5 pa 

有 了 这 种 方法 ,我 们 必须 把 它 翻译 成 代码 。 图 9-15 显示 该 算 | 
法 将 要 用 到 的 记录 过 程 的 表 的 初始 配置 。 Leur n 

对 于 每 个 顶点 , 我 们 将 跟踪 三 个 信息 。 首先 , 我 们 把 从 s 开始 ”图 9.15 “用 于 无 权 最 短路 
到 项 点 的 距离 放 到 a, 栏 中 。 开 始 的 时 候 , KR s 外 所 有 的 项 点 都 是 计算 的 表 的 初始 配 轩 
不 可 达到 的 , 而 s 的 路 径 长 为 0。P, 栏 中 的 项 为 秒 记 变量 , 它 将 使 我 们 能 够 显示 出 实际 的 路 
fo Known 中 的 项 在 顶点 被 处 理 以 后 置 为 1。 起初， 所 有 的 顶点 都 不 是 Known( 已 知 的 ), 包 
括 开始 顶点 。 当 一 个 顶点 被 标记 为 已 知 时 , 我 们 就 确信 不 会 再 找到 更 便宜 的 路 径 ， 因 此 对 该 
顶点 的 处 理 实质 上 已 经 完成 。 

基本 的 算法 在 图 9-16 中 描述 。 图 9-16 中 的 算法 模拟 这 些 图 表 , 它 把 距离 d = 0 上 的 项 
点 声明 为 Known， 然后 声明 d = 1 上 的 顶点 为 Known， 再 声明 d = 2 上 的 顶点 为 Known， 
等 等 , 并 且 将 仍然 是 de= 的 所 有 邻接 的 顶点 w 置 为 距离 d=d + 1- 

通过 追溯 p. 变量 , 可 以 显示 实际 的 路 径 。 当 讨论 赋 权 的 情形 时 我 们 将 会 看 到 如 何 进行 。 

iti TRUE for 循环 因此 该 算法 的 运行 时 间 为 O(1V1?)。 这 个 效率 明显 地 低 因为 
尽管 所 有 的 顶点 早 就 成 为 Known T, 但 是 外 层 循环 还 是 要 继续 , 直到 Num Vertex —1 为止。 
虽然 额外 的 附加 测试 可 以 避免 这 种 情形 发 生 , 但 是 它 并 不 能 影响 最 坏 情形 运行 时 间 ， 当 以 图 
9 .17 中 的 从 顶点 vo 开始 的 图 作为 输入 时 通过 将 所 发 生 的 情况 推广 即 可 看 到 这 一 点 。 
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| void 
Unweighted( Table T ) /* Assume T is initialized */ 
{ 


int CurrDist; 
Vertex V, Wi 


fai for( CurrDist = 0; CurrDist < NumVertex; CurrDist++ ) 
/* 2" for each vertex V 
2 3*/ u C ITC V J.Known && TE V }.Dist == CurrDist ) 
[sat] TL V ] .known = True; 
fs for each W adjacent to V 
/* 6 if( TE W ].Dist == Infinity ) 
t 
/* TM TE W ].Dist = CurrDist + 1; 
/* 8*/ TW J.Path = V; 


+ 








图 9-16 无 权 最 短路 算法 的 伪 代码 


O-O-O-O-O-O-O-O-O 
图 9-17 使 用 图 9-16( 伪 代码 ) 的 无 权 最 短路 算法 的 坏 情形 


我 们 可 以 用 非常 类 似 于 对 拓扑 排序 的 做 法 来 排除 这 种 低 效 性 。 在 任 一 时 刻 ， 只 存在 两 种 
类 型 的 未 知 顶 点 , 它们 的 dA, 一 些 顶 点 的 d, = CurrDist ,而 其 余 的 则 有 d, = CurrDist 
+ 1。 由 于 这 种 附加 的 结构 , 在 第 2 行 和 第 3 行 搜索 整个 的 表 以 找 出 合适 顶点 的 做 法 是 非常 
浪费 的 。 

一 种 非常 简单 但 抽象 的 解决 方案 是 保留 两 个 盒子 。1# 盒 将 装 有 du = CurrDist 的 未 知 项 
点 ,而 2# 愈 则 装 有 d = CurrDise + 1 的 那些 项 点。 在 第 2 行 和 第 3 行 的 测试 可 以 用 查找 
1= 盒 内 的 任意 顶点 代替 。 在 第 8 行 (if 语句 的 内 部 ) 以 后 , 我 们 可 以 把 w 加 到 2# EP 在 外 
层 for 循环 终止 以 后 ,1# 盒 是 空 的 ,而 2 上 # 盒 则 可 转换 成 1# 盒 以 进行 下 一 趟 for 循环 。 

我 们 甚至 可 以 使 用 一 个 队列 把 这 种 想法 进一步 精 化 。 在 迭代 开始 的 时 候 ， 队列 只 含有 距离 
为 CurrDist 的 那些 顶点 。 当 我 们 添加 距离 为 CurrDis + 1 的 那些 邻接 项 点 时 , 由 于 它们 自 队 尾 
AB, 因此 这 就 保证 它们 直到 所 有 距离 为 CurrDist 的 顶点 都 被 处 理 之 后 才 被 处 理 。 在 距离 为 
CurrDist 处 的 最 后 一 个 顶点 出 队 并 被 处 理 之 后 ,队列 只 含有 距离 为 CurDis + 1 的 顶点 , 因此 
该 过 程 将 不 断 进行 下 去 。 我们 只 需要 把 开始 的 节点 放 入 队列 中 以 启动 这 个 过 程 即 可 。 

精炼 的 算法 在 图 9-18 中 表 出 。 在 伪 代 码 中 , 我 们 已 经 假设 开始 顶点 s 是 知道 的 且 Ts]. 
Dist 为 0。C 例 程 可 能 把 s 作为 参数 传递 。 BER 如 果菜 些 顶 点 从 开始 节点 出 发 是 不 可 到 达 
的 , 那么 有 可 能 队列 会 过 早 地 变 空 。 在 这 种 情况 下 , 将 对 这 些 节点 报 出 Infinity EST) PER, 
这 就 完全 合理 了 。 最 后 , Known 域 没有 使 用 ; 一 个 顶点 一 旦 被 处 理 它 就 从 不 再 进入 队列 , 因 
此 它 不 需要 重新 处 理 的 事实 就 意味 着 做 了 标记 。 这 样 一 来 ， Known 域 可 以 去 掉 。 图 9-19 指出 
我 们 一 直 在 使 用 的 图 上 的 值 在 算法 期 间 是 如 何 变化 的 。 我 们 保留 Known 域 为 的 是 使 得 表 更 
容易 沿用 并 使 得 与 本 节 其 余部 分 保持 一 致 

与 对 拓扑 排序 进行 的 分 析 相同 , 我 们 看 到 ， 只 要 使 用 邻接 表 , 则 运行 时 间 就 是 
OUEL + IV!)。 
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void 
iontedt Table T ) /* Assume T is initialized (Fig 9.30) */ 


Queue Q; 

Vertex V, Wi 
pay Q = CreateQueue( NumVertex ); MakeEmpty( Q ); 

/* Enqueue the start vertex S, determined elsewhere */ 
P 28 Enqueue( S, Q ) 
Ig whileC !IsEmptyC Q ) ) 

{ 
/* an, V = Dequeue( Q ); 
Its TL V ].Known = True; /* Not really needed anymore */ 
/* 6*/ for each W adjacent to V 
pg if( TL W ].Dist == Infinity ) 

1 

[ts TEW J.Dist = TEV J.Dist + 1; 
/* 9*/ TEW ].Path = V; 
/n9*/ Enqueue( W, Q ); 

i ) 
[me DisposeQueue( Q ); /* Free the memory */ 











图 9-18 “无 权 最 短路 算法 的 伪 代码 






































初始 状态 n 出 队 LES e 出 队 
v | Known d, p, | Known d, p, | Known d, p, | Known d, p. 
n 0 = 0 0 Yo 1 1 on 1 low 
[7] 0 x 0 0 = 0 0 2 0 0 204 
vy 0 0 0 1 0 0 1 o oj 1 o 0 
uw] o =o| o = of 0 2n| 0 2 w 
n o = 0 0 x 0 0 = 0 0 x 0 
ve 0 = 0| 0 19 0 1 vw 1 Yon 
v 0 = 0| 0 = 0 0 x 0 0 x 0 
Q: n | nn Vesta vasa 
LELS LLL ts BA 和 出 队 
r | Known d, p. | Known d, pr | Known d, p, | Known d, p. 
Y 3 ow 1 low 1 |n 1 Yom 
$ 2 n 1 2m} 1 2 mm 1 2 n 
1 0 0 1 0 0 1 0 0 k 0 0 
0 2m 1 1o Y 2 n 1 2 w 
n| o 3 ml 0 an 1 3 mf ? 30% 
v 1 Ion 1 ap t Ini ! 1 o5 
v 0 = 0 0 3% 9 3 wv 1 3 v 
Q: m y v | empty 









































图 9.19 无 权 最 短路 算法 期 间 数据 如 何 变化 
9.3.2 Dijkstra 算法 
如 果 图 是 赋 权 | 
形 时 的 想法 。 
我 们 保留 所 有 与 前 面相 同 的 信息 。 因此, 每 个 顶点 或 者 标记 为 Known( 已 知 ) 的 , 或 者 标 
记 为 unknown( 未 知 ) 的 。 像 以 前 一 样 ， 对 每 一 个 顶点 保留 一 个 临时 距离 d。。 这 个 距离 实际 上 


那么 问题 (明显 地 ) 就 变 得 困难 了 , 不 过 我 们 仍然 可 以 使 用 来 自 无 权 情 





Ba 225 





是 使 用 已 知 项 点 作为 中 间 项 点 从 s 到 的 最 短路 径 的 长 。 和 以 前 一 样 , 我 们 记录 p.. 它 是 引 
起 d, 变化 的 最 后 的 顶点 。 

解决 单 源 最 短路 径 问题 的 一 般 方 法 叫做 Dijkstra 算法 (Dijkstra's algorithm)。 这 个 有 30 
年 历史 的 解法 是 贪 焚 算法 (greedy algorithm) 最 好 的 例子 。 贪 禁 算 法 一 般 地 分 阶段 求解 一 个 问 
题 , 在 每 个 阶段 它 都 把 当前 出 现 的 当 作 是 最 好 的 去 处 理 。 例 如 , 为 了 用 美国 货币 找 零钱 , 大 
部 分 人 首先 数 出 若干 25 分 一 个 的 硬币 (quarter), 然后 是 若干 一 角 币 ,五 分 币 和 一 分 币 。 这 种 
仙 禁 算法 使 用 最 少数 目的 硬币 找 零钱 。 贪 杖 算法 主要 的 问题 在 于 , 该 算法 不 是 总 能 够 成 功 。 
为 了 找 还 15 美 分 的 零钱 , 如 添加 12 美 分 一 个 的 货币 则 可 破坏 这 种 找 零钱 算法 ,因为 此 时 它 
给 出 的 答案 (一 个 12 分 币 和 三 个 分 币 ) 不 是 最 优 的 (一 个 角 币 和 一 个 五 分 币 )。 

Dijkstra 算 法 像 无 权 最 短路 径 算法 一 样 , 按 阶段 进行 。 在 每 个 阶段 ，Dijkstra 算法 选择 一 
个 顶点 v, 它 在 所 有 未 知 顶点 中 具有 最 小 的 ds 同时 算法 声明 从 s 到 v 的 最 短路 径 是 已 知 
的 。 阶段 的 其 余部 分 由 du 值 的 更 新 工作 组 成 。 

在 无 权 的 情形 , 若 d= co WIRE, = d. 1。 因此 , 若 顶 点 v 能 提供 一 条 更 短路 径 , 则 
我 们 本 质 上 降低 了 de 的 值 。 如 果 我 们 对 赋 权 的 情形 应 用 同样 的 逻辑 ,那么 当 d, 的 新 值 
det cv ww 是 一 个 改进 的 值 时 我 们 就 置 di = de + cv. w。 简 言 之 , 使 用 通 向 w 路 径 上 的 顶点 
是 不 是 一 个 好 主意 由 算法 决定 。 原始 的 值 di 是 不 用 wv 的 值 ; 上 面 所 算出 的 值 是 使 用 v( 和 仅 
仅 那些 已 知 的 顶点 ) 最 便宜 的 路 径 。 

图 9-20 中 的 图 是 一 个 例子 。 图 9-21 表示 初始 配置 ,假设 开始 节点 s 是 we。 第 一 个 选择 的 
顶点 是 v, 路径 的 长 为 0。 该 硕 点 标记 为 已 知 。 既然 v 已 知 , 那么 某 些 表 项 就 需要 调整 。 邻 
接 到 vi 的 顶点 是 v 和 wa。 这 两 个 顶点 的 项 得 到 调整 , 如 图 9-22 所 示 。 



























































e Known 4, Pr Li Known ^ Pe | 
«| e eo "HEC 
n 0 = 0| n 0 2o” 
v 0 = 0 n 0 = 0 
“| o x0 | 9 14 
vs 0 = 0 vs 0 0 
o z 0 M% o = 0 
a| o =o e] o =o 
图 9-21 用 于 Dijkstra 图 9-22 在 v 被 声 
图 9-20 有 向 图 G 算法 的 表 的 初始 配置 明 为 已 知 后 的 表 


下 一 步 , 选取 va 并 标记 为 已 知 。 顶点 vs. vs. vos vr 是 邻接 的 顶点 ,而 它们 实际 上 都 需 
要 调整 , 如 图 9-23 所 示 。 

接着 选择 vo vs 是 邻接 的 点 , 但 已 经 是 已 知 的 , 因此 对 它 没有 工作 要 做 。vs 是 邻接 的 点 
但 不 做 调整 ,因为 经 过 ua 的 值 为 2 + 10 = 12, 而 长 为 3 的 路 径 已 经 是 已 知 的 。 图 9-24 指出 
在 这 些 顶 点 被 选取 以 后 的 表 。 

下 一 个 被 选取 的 顶点 是 vs， 其 值 为 3。 是 惟一 的 邻接 项 点， 但 是 它 不 用 调整 , 因为 
3 + 6 > 5。 然后 选取 vs, 对 ve 的 距离 下 调 到 3 + 5 = 8. 结果 如 图 9-25 所 示 。 

再 下 一 个 选取 的 顶点 是 vos ve 下 调 到 5 + 1 = 6. 我 们 得 到 图 9-26 所 示 的 表 。 

最 后 , 我 们 选择 veo 最 后 的 表 在 图 9-27 中 表 出 。 图 9-28 通过 图 形 演示 在 Dijkstra 算法 期 
间 各 边 是 如 何 标记 为 已 知 的 以 及 项 点 是 如 何 更 新 的 。 
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[© | Known 4 pr | T. Known d, p. [Le [mm 4. pr 
m 1 0 0 | "| 1 0o of iz 1 0 0 
"m 0 2 n v 1 2 L3 1 2n 
n 0 3 » |n 0 3 n n 1 3 n 
D 1 ton Ja j a 1 v. 1 tom 
r 0 3 n ej 9 3 " 1 3 on 
r 0 9? n | v o 9 ml D 0 8 wy 
r 0 5S wm E o 5$ nj mj o saj 
图 9-23 (£v, 9-24 fEv; 图 9-25 在 ws 然后 v 
被 声明 为 已 知 后 被 声明 为 已 知 后 被 声明 为 已 知 后 
T | Known 4 pr [em dsp. 
n | 1 0 0 n 1 0 0 
| [D 1 2 ml n 1 24 | 
vy ' 3 wj v 1 3 n 
| n | 1 low "n 1 lon 
vs 1035 v 13035 
|^ 0 6 ov | n 1 60v 
impor sn - 1 5 n 
图 9-26 在 v, 被 声明 为 已 知 后 图 9-27 在 v, 被 声明 为 已 知 后 ,算法 终止 


为 了 显示 出 从 开始 顶点 到 某 个 顶点 v 的 实际 路 径 , 我 们 可 以 编写 一 个 递归 例 程 跟踪 p 
数组 留 下 的 踪迹 。 

现在 给 出 实现 Dijkstra 算法 的 伪 代 码 。 我 们 将 假设 , 为 方便 起 见 , 这 些 顶 点 从 0 到 
Num Vertex — 1 标号 ( 见 图 9-29) 并 假设 通过 例 程 ReadGraph 我 们 的 图 可 以 被 读 入 到 一 个 邻接 
RP. 

在 图 9-30 的 例 程 中 , 开始 的 顶点 被 传递 到 初始 化 例 程 中 。 这 是 代码 中 惟一 需要 知道 开始 
顶点 的 地 方 。 

利用 图 9-31 中 的 递归 例 程 可 以 显示 出 这 个 路 径 。 该 例 程 递归 地 显示 出 直到 顶点 v 前 面 
的 顶点 的 整个 路 径 , 然后 再 显示 顶点 v. 这 是 没有 问题 的 , 因为 路 径 是 简单 的 。 

图 9-32 列 出 主要 的 算法 , 它 就 是 一 个 使 用 贪 禁 选取 法 则 填 表 的 for 循环 。 

利用 反 证 法 的 证 明 将 指出 , 只 要 没有 边 的 值 为 负 , 该 算法 总 能 够 顺利 完成 。 如 果 任何 一 边 出 
现 负 值 , 则 算法 可 能 得 出 错误 的 答案 ( 见 练习 9.7a)。 运行 时 间 依赖 于 对 表 的 处 理 方法 ， 我 们 必须 考 
JR, 如果 通过 使 用 扫描 表 来 找 出 最 小 值 d,, 那么 每 一 步 将 花费 OCI VI ) 时 间 找到 最 小 值 , 从 而 整 
个 算法 过 程 将 花费 OU V|2) 时 间 查找 最 小 值 。 每 次 更 新 du 的 时 间 是 常数 ， 而 每 条 边 最 多 有 一 次 
更 新 , 总 计 为 O(1E|)。 因此, 总 的 运行 时 间 为 O(IEl + (VI) = OC VI»). tn Fede stg. 
边 数 |E| = OUVI), 则 该 算法 不 仅 简单 而 且 基本 上 最 优 ， 因为 它 的 运行 时 间 与 边 数 成 线性 关系 。 

如 果 图 是 稀 朴 的 , 边 数 |E| = OUVI), 那么 这 种 算法 就 太 慢 了 。 在 这 种 情况 下 , 距离 
需要 存储 在 优先 队列 中 。 有 两 种 方法 可 以 做 到 这 一 点 ， 二 者 是 类 似 的 。 

第 2 行 与 第 $ 行 联合 形成 一 个 DeleteMin 操作 ， 因为 一 旦 未 知 的 最 小 值 顶 点 被 找到 , 那 
么 它 就 不 再 是 未 知 的 , 以 后 不 再 考虑 。 在 第 9 行 的 更 新 有 两 种 实现 方法 。 

一 种 方法 是 把 更 新 处 理 成 DecreaseKey 操作 。 此 时 ， 查找 最 小 值 的 时 间 为 O(log | V1)， 
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即 为 执行 那些 更 新 的 时 间 , 它 相 当 于 执行 那些 DecreaseKey 操作 的 时 间 。 由 此 得 出 运行 时 间 
为 O(IE| log | V! + |V| log | Vi) = O(IEi log | Vi), 它 是 对 前 面 稀疏 图 的 界 的 改进 。 
由 于 优先 队列 不 是 有 效 地 支持 Find BRE, 因此 d; 的 每 个 值 在 优先 队列 的 位 置 将 需要 保留 并 
当 d 在 优先 队列 中 改变 时 更 新 。 如 果 优 先 队 列 是 用 二 叉 堆 实现 的 , 那么 这 将 很 难 办 。 如 果 使 
用 配对 堆 (pairing heap 一 一 见 第 12 章 ), 则 程序 不 会 太 差 。 





189-28 Dijkstra 算法 的 各 个 阶段 





typedef int Vertex; 
struct TableEntry 


List Header; /* Adjacency list */ 
int Known; 
DistType Dist; 
Vertex Path; 
h 
/* Vertices are numbered from 0 */ 


*define NotAVertex (-1) 
typedef struct TableEntry Table[ NumVertex ]; 








图 9-29 Dijkstra 算法 的 声明 
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HOF 








void 
InitTable( Vertex Start, Graph C, Table T ) 
{ 


int i; 
wr ReadGraph( G, T ); /* Read graph somehow */ 
fI for( i = 0; i < Numvertex; i++ ) 
{ 
EI T[ i ].Known = False; 
/* an] TL i .Dist = Infinity; 
/* 5*7 TE i ).Path = NotAVertex: 
} 
/* 6 TE Start ].dist = 0; 








图 9-30 表 初始 化 例 程 





{ 





/* Print shortest path to V after Dijkstra has run */ 
/* Assume that the path exists */ 


void 
PrintPath( Vertex V, Table T ) 


if( TL V J.Path !- NotAVertex ) 
{ 
PrintPath( T[ V J.Path, T ); 
printf( " to” ); 


) 
printf( "Xv", V ); /* Xv is pseudocode */ 








图 9-31 显示 实际 最 短路 径 的 例 程 








pw 


void 
Dijkstra( Table T ) 
[ 

Vertex V, Wi 


forC i iD 
{ 
V = smallest unknown distance vertex; 
dfC V == NotAVertex ) 
break; 


TE V ].Known = True; 
for each W adjacent to V 
ifC ITE W 2. Known ) 
ifC TU V ].Dist + Cvw < TL W J.Dist ) 
{ /* Update W */ 
Decrease( T[ W ] .Dist to 
TL V J.Dist + Cw); 
TEW ).Path = V; 
} 








图 9-32 Dijkstra 算法 的 伪 代码 
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2 log | Vi, 因此 这 并 不 影响 渐进 时 间 界 。 这 样 , 我 们 仍然 得 到 一 个 O(1E| log |V|) 算 法 ,不 
3l. 空间 需求 的 确 增加 了 , 在 某 些 应 用 中 这 可 能 是 严重 的 。 不 仅 如 此 , 因为 该 方法 需要 | 天 | 次 
而 不 是 仅仅 | V1 次 DeleteMin, 所 以 它 在 实践 中 很 可 能 要 慢 。 

注意 , 对 于 一 些 诸如 计算 机 邮件 和 大 型 公交 传输 的 典型 问题 , 它们 的 图 一 般 是 非常 稀 玻 的 ， 
因为 大 多 数 顶 点 只 有 少数 几 条 边 . 因此 , 在 许多 应 用 中 使 用 优先 队列 来 解决 这 种 问题 是 很 重要 的 。 

如 果 使 用 不 同 的 数据 结构 , 那么 Dijkstra 算法 可 能 会 有 更 好 的 时 间 界 - 在 第 11 章 , 我 们 
将 看 到 另外 的 优先 队列 数据 结构 , mi AEE AB SEE (Fibonacci heap). 使 用 这 种 数据 结构 的 运 
行 时 间 是 O(| 下 | + |V] log | V1)。 辈 波 那 契 堆 具 有 良好 的 理论 时 间 界 ,不 过 ， 它 需要 相当 
数量 的 系统 开销 。 因此 , 尚 不 清楚 在 实践 中 是 否 使 用 斐 波 那 契 堆 比 使 用 具有 二 叉 堆 的 Dijkstra 
算法 更 好 。 不 用 说 , 这 种 问题 没有 平均 情形 的 时 间 结 果 , 因为 甚至 连 如 何 建立 随机 图 的 模型 
都 不 是 很 明显 的 。 
9.3.3 具有 负 边 值 的 图 

如 果 图 具有 负 边 值 , 那么 Dijkstra 算法 是 行 不 通 的 。 问题 在 于 , 一旦 一 个 顶点 u 被 声明 是 已 
知 的 , 那 就 可 能 从 某 个 另外 的 未 知 项 点 v 有 一 条 回 到 u 的 负 的 路 径 。 在 这 样 的 情形 下 , 选取 从 
s 到 v 再 回 到 u 的 路 径 要 比 从 s 到 u 但 不 过 v 更 好 。 练习 9.7(a) 要 求 构 造 一 个 明晰 的 例子 。 

一 个 诱 人 的 方案 是 将 一 个 常数 A 加 到 每 一 条 边 的 值 上 , 如 此 除去 负 值 边 , 再 计算 新 图 的 
最 短路 径 问题 , 然后 把 结果 用 到 原来 的 图 上 。 这 种 方案 不 可 能 直接 实现 ,因为 那些 具有 许多 
条 边 的 路 径 变 得 比 那些 具有 很 少 边 的 路 径 权重 更 重 了 。 

把 赋 权 的 和 无 权 的 算法 结合 起 来 将 会 解决 这 个 问题 , 但 是 要 付出 运行 时 间 激烈 增长 的 代 
dr. 我 们 忘记 了 关于 已 知 的 顶点 的 概念 , 因为 我 们 的 算法 需要 能 够 改变 它 的 意向 。 开始, 我 
们 把 s 放 到 队列 中 。 然 后, 在 每 一 阶段 我 们 让 一 个 顶点 v 出 队 。 找 出 所 有 与 v 邻接 的 顶点 
we 使 得 du det cv uo 然后 更 新 dy. Bl pa. 并 在 w 不 在 队列 中 的 时 候 把 它 放 到 队列 中 。 
可 以 为 每 个 顶点 设置 一 个 比特 位 (bit) 以 指示 它 在 队列 中 出 现 的 情况 。 我 们 重复 这 个 过 程 直到 
队列 为 空 。 图 9-33( 几 乎 ) 实 现 这 个 算法 。 





void /* Assume T is initialized as in Fig 9.18 */ 
WeightedNegative( Table T ) 
{ 
Queue Q; 
Vertex V, W; 
/*1 Q = CreateQueue( NumVertex ); MakeEmpty( Q ); 
Jt 2 Enqueue( S, Q ); /* Enqueue the start vertex $ */ 
| pa while !IsEmpty( Q ) ) 
{ 
WA V = Dequeve( Q ); 
Js" for each W adjacent to V 
pw ifC TL V ].Dist + Cw < TL W ].Dist ) 
1 
/* Update W */ 
peg TEW ].Dist = TE V J.Dist + Cw; 
pea TE W ).Path = V; 
/* 9*7 if( W is not already in Q ) 
/*10*/ Enqueue( W, Q ); 
) 
Í 
fnis DisposeQueue( Q ); 
1 











图 9-33 具有 负 边 值 的 赋 权 最 短路 算法 的 伪 代 码 
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虽然 如 果 没 有 负 值 图 该 算法 能 够 正常 工作 , 但 是 , 第 6 行 到 第 10 行 的 代码 每 边 只 执行 一 
次 的 情况 不 再 成 立 。 每 个 顶点 最 多 可 以 出 队 ! V| 次 , 因此 , 如 果 使 用 邻接 表 则 运行 时 间 是 O 
CELI V1) R2] 9.7b). 这 比 Dijkstra 算法 多 很 多 , 幸运 的 是 , 实践 中 边 的 值 是 非 负 的 。 如 
在 ,那么 所 写 的 算法 将 无 限 循环 下 去 。 通 过 在 任 一 项 点 已 经 出 队 | V| + 1 次 后 停 
,我 们 可 以 保证 它 能 终止 
9.3.4 ZMA 

如 果 知道 图 是 无 圈 的 , 那么 我 们 可 以 通过 改变 声明 顶点 为 已 知 的 顺序 ,或 者 叫做 项 点 选 
取 法 则 , 来 改进 Dijkstra 算法 。 新 法 则 以 拓扑 顺序 选择 顶点 。 由 于 选择 和 更 新 可 以 在 拓扑 排 
序 执行 的 时 候 进行 , 因此 算法 能 够 一 趟 完成 。 

因为 当 一 个 顶点 v 被 选取 以 后 , 按照 拓扑 排序 的 法 则 , 它 没有 从 未 知 项 点 发 出 的 进入 
边 , 因此 它 的 距离 d. 可 以 不 再 被 降低 ， 所 以 这 种 选择 法 则 是 行 得 通 的 

使 用 这 种 选择 法 则 不 需要 优先 队列 ; 由 于 选择 花费 常数 时 间 , 因此 运行 时 间 为 O( |E| + 
Video 

无 圈 图 可 以 模拟 某 种 下 坡 滑雪 问题 一 一 我 们 想 要 从 点 到 点 4, 但 只 能 走 下 坡 ,显然 不 
可 能 有 疾 。 另 一 个 可 能 的 应 用 是 (不 可 逆 ) 化 学 反应 模型 。 我 们 可 以 让 每 个 项 点 代表 实验 的 一 
个 特定 的 状态 , 让 边 代表 从 一 种 状态 到 另 一 种 状态 的 转变 ,而 边 的 权 代表 释放 的 能 量 - 如果 
只 能 从 高 能 状态 转变 到 低能 状态 , 那么 图 就 是 无 图 图 。 

无 圈 图 的 一 个 更 重要 的 用 途 是 关键 路 径 分 析 法 (critical path analysis)。 我 们 将 用 图 9-34 
中 的 图 作为 我 们 的 例子 。 每 个 节点 表示 一 个 必须 执行 的 动作 以 及 完成 动作 所 花费 的 时 间 。 因 
此 , 该 图 叫做 动作 节点 图 (activity-node graph). 图 中 的 边 代表 优先 关系 : 一 条 边 (u，w) 意 味 
着 动作 v 必须 在 动作 w 开始 前 完成 。 当 然 , 这 就 意味 着 图 必须 是 无 圈 的 。 我 们 假设 任何 ( 直 
接 或 间接 ) 互 相 不 依赖 的 动作 可 以 由 不 同 的 服务 器 并 行 地 执行 。 









图 9-34 动作 节点 图 


这 种 类 型 的 图 可 以 (并 常常 ) 被 用 来 模拟 方案 的 构建 。 在 这 种 情况 下 . 有 几 个 问题 需要 回 
答 。 首 先 , 方案 最 早 完成 时 间 是 何 时 ? 从 图 中 我 们 可 以 看 到 , 沿路 径 A, C, FL H 需要 10 个 
时 间 单 位 。 另 一 个 重要 的 问题 是 确定 哪些 动作 可 以 延迟 , 延迟 多 长， 而 不 至 于 影响 最 少 完成 
时 间 。 例 如 , 延迟 A. C. F, H 中 的 任 一 个 都 将 使 完成 时 间 推 到 10 个 时 间 单 位 以 后 。 另 一 方 
面 , 动作 BREF, 可 以 被 延迟 两 个 时 间 单 位 而 不 至 于 影响 最 后 完成 时 间 。 

为 了 进行 这 些 运算 , 我 们 把 动作 节点 图 转化 成 事件 节点 图 (event-node graph) - 每 个 事件 
对 应 一 个 动作 和 所 有 与 它 相关 的 动作 的 完成 。 从 事件 节点 图 中 的 节点 v 可 达到 的 事件 可 以 在 
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事件 v 完成 后 开始 。 这 个 图 可 以 自动 构造 , WTA TH WE AE 15 cx RT fes df A P 
一 个 动作 依赖 于 几 个 其 他 动作 的 地 方 .。 为 了 避免 引进 假 相 关 性 (或 相关 性 的 假 短 缺 )， 这 么 做 
是 必要 的 。 对 应 图 9-34 的 事件 节点 图 如 图 9-35 所 示 。 





图 9-35 事件 节点 图 


为 了 找 出 方案 的 最 早 完成 时 间 , 我 们 只 要 找 出 从 第 一 个 事件 到 最 后 一 个 事件 的 最 长 路 径 
的 长 。 对 于 一 般 的 图 ， 最 长 路 径 问题 通常 没有 意义 ,因为 可 能 有 正 值 的 圈 ( positive-cost cycle) 
存在 , 这 些 正 值 圈 等 价 于 最 短路 问题 中 的 负 值 图。 如 果 出 现 正 值 图, 那么 我 们 可 以 寻找 最 长 
的 简单 路 径 , 不 过 , 对 于 这 个 问题 没有 已 知 的 圆满 的 解决 方案 。 由 于 事件 节点 图 是 无 圈 图 ， 
因此 我 们 不 必 担 心 圈 的 问题 。 在 这 种 情况 下 , 容易 采纳 最 短路 径 算法 计算 图 中 所 有 节点 最 早 
完成 时 间 。 如果 EC, 是 节点 i 的 最 早 完成 时 间 , 那么 可 用 的 法 则 为 

EC,= 0 
EC.- max (EC, + Co, w) 


图 9-36 显示 在 我 们 的 实例 事件 节点 图 中 每 个 事件 的 最 早 完成 时 间 。 





图 9-36 最 早 完成 时 间 
我 们 还 可 以 计算 每 个 事件 能 够 完成 而 不 影响 最 后 完成 时 间 的 最 晚 时 间 LC;。 进 行 这 项 工 
作 的 公式 为 
LC, = EC, 
LC, ， 
对 于 每 个 项 点， 通过 一 个 保存 所 有 邻接 且 在 先 的 顶点 的 表 , 这 些 值 就 可 以 以 线性 时 间 算 出 。 
借助 顶点 的 拓扑 顺序 计算 它们 的 最 早 完成 时 间 ， 而 最 晚 完成 时 间 则 通过 倒转 它们 的 拓扑 顺序 


来 计算 。 最 晚 完成 时 间 如 图 9-37 所 示 。 
ch 





min (LC, ina) 
n WEE 





图 9-37 最 晚 完成 时 间 


&j 
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事件 节点 图 中 每 条 边 的 松弛 时 间 (slack time) 代 表 对 应 动作 可 以 被 延迟 而 不 推迟 整体 的 
完成 时 间 量 。 容易 看 出 
Slack (y, w)= LC, = EC,- c, we 
图 9-38 指出 在 事件 节点 图 中 每 个 动作 的 松弛 时 间 ( 作 为 第 三 项 )。 对 于 每 个 节点 , 项 上 的 数 是 
最 早 完成 时 间 , 底下 的 数 是 最 晚 完成 时 间 。 





图 9-38 最早 完成 时 间 、 最 晚 完成 时 间 和 松弛 时 间 


某 些 动作 的 松弛 时 间 为 零 , 这 些 动作 是 关键 性 的 动作 , 它们 必须 按 计划 结束 。 至少 存在 
一 条 完全 由 零 -松弛 边 组 成 的 路 径 , 这 样 的 路 径 是 关键 路 径 (critical path)» 
9.3.5 所 有 点 对 最 短路 径 

有 时 重要 的 是 要 找 出 图 中 所 有 顶点 对 之 间 的 最 短路 径 。 虽 然 我 们 可 以 运行 | V1 次 适当 的 
单 源 算 法 ,但 是 如 果 要 立即 计算 所 有 的 信息 , 我 们 还 是 期 望 有 更 快 的 解法 ,尤其 是 对 于 稠密 
的 图 。 

在 第 10 章 , 我 们 将 看 到 对 赋 权 图 求解 这 种 问题 的 一 个 O(1V13) 算 法 。 虽 然 对 于 稠密 图 ， 
它 具 有 和 运行 |V | 次 简单 ( 非 优 先 队列 )Dijkstra 算法 相同 的 时 间 界 , 但 是 循环 是 如 此 地 紧凑 
以 致 所 有 专门 的 点 对 算法 很 可 能 在 实践 中 会 更 快 。 当然 ,对 于 稀 朴 图 更 快 的 是 运行 | Y| 次 用 
优先 队列 编写 的 Dijkstra 算法 。 
9.4 网 络 流 问题 

设 给 定 边 容量 为 <。 的 有 向 图 G = CV. 巨 )。 这 些 容量 可 以 代表 通过 一 个 管道 的 水 的 
流量 或 在 两 个 交叉 路 口 之 间 马 路 上 的 交通 流量 。 有 两 个 顶点 , 一 个 是 %， 称 为 发 点 (source)， 
一 个 是 1， 称 为 收 点 (sink)。 对 于 任 一 条 边 (v， w), MEAR A co, ,个 单位 可 以 通过 。 在 
既 不 是 发 点 s 又 不 是 收 点 + 的 任 一 顶点 v, 总 的 进入 的 流 必须 等 于 总 的 发 出 的 流 。 最 大 流 问题 
就 是 确定 从 s 到 + 可 以 通过 的 最 大 流量 . 例如 , 对 于 图 9-39 中 左边 的 图 , 最 大 流 是 5， 如 右边 
的 图 所 示 。 








图 9-39 一 个 图 (左边 ) 和 它 的 最 大 流 
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正如 问题 叙述 中 所 要 求 的 , 没有 边 负载 超过 它 的 容量 的 流 。 顶点 a 有 3 个 单位 的 流 进 
A, 它 将 这 3 个 单位 的 流 分 转 给 c 和 d 。 顶点 d 从 a Fo 得 到 3 个 单位 的 流 , 并 把 它们 结合 起 
来 发 送 到 +。 一 个 顶点 可 以 以 它 喜欢 的 任何 方式 结合 和 发 送 流 ， 只 要 不 违反 边 的 容量 以 及 保 
持 流 守恒 (进入 必须 流出 )。 

9.4.1 一 个 简单 的 最 大 流 算法 

解决 这 种 问题 的 首要 想法 是 分 阶段 进行 。 我 们 从 图 G 开始 并 构造 一 个 流 图 Gr。G/ 表示 
在 算法 的 任意 阶段 已 经 达到 的 流 。 开 始 时 G 的 所 有 的 边 都 没有 流 , 我们 希望 当 算法 终止 时 
Gi 包含 最 大 流 。 我 们 还 构造 一 个 图 G,, 称 为 残余 图 (residual graph), 它 表示 对 于 每 条 边 还 能 
再 添加 上 多 少 流 。 对 于 每 一 条 边 , 我 们 可 以 从 容量 中 减 去 当前 的 流 而 计算 出 残余 的 流 。G, 的 
边 叫 做 残余 边 (residual edge)。 

在 每 个 阶段 , 我 们 寻找 图 G, PAs Bile 的 一 条 路 径 , 这 条 路 径 叫 做 增长 通路 (augmenting 
path)。 这 条 路 径 上 的 最 小 值 边 就 是 可 以 添加 到 路 径 每 一 边 上 的 流 的 量 。 我 们 通过 调整 G 和 
重新 计算 G, 做 到 这 一 点 。 当 发 现在 G, 中 没有 从 到 + 的 路 径 时 算法 终止 。 这 个 算法 是 不 确 
定 的 , 因为 从 * 到 * 的 路 径 是 任意 选择 的 。 BA, 有 些 选 择 会 比 男 外 一 些 选择 好 , 后 面 我 们 再 
处 理 这 个 问题 。 我 们 将 对 我 们 的 例子 运行 这 个 算法 。 下 面 的 图 分 别 是 G、Gr 和 G,。 要 记 着 这 
个 算法 有 一 个 小 欠缺 。 初始 的 配置 见 图 9-40. 





图 9-40 图 、 流 图 以 及 残余 图 的 初始 阶段 
在 残余 图 中 有 许多 从 s 到 + 的 路 径 。 假 设 我 们 选择 s、5、d、+。 此 时 我 们 可 以 发 送 2 个 
单位 的 流通 过 这 条 路 径 的 每 一 边 。 我们 采取 如 下 约定 :一旦 注 满 (使 饱和 ) 一 条 边 , 则 这 条 边 
就 要 从 残余 图 中 除去 。 这 样 , 我们 得 到 图 9-41。 





图 9.41 Ws. 5, d, +t 加 入 2 个 单位 的 流 后 的 G、Gf、Gr 


"ii. 我 们 可 以 选择 路 径 s.a. c, c. 该 路 径 也 容许 2 个 单位 的 流通 过 。 进行 必要 的 调 





234 gos 





整 后 , 我 们 得 到 图 9-42 中 的 图 。 





图 9-42 Hs. a. c, (加 入 2 个 单位 的 流 后 的 G、Gr、Gr 


惟一 剩 下 要 选择 的 路 径 是 *，a d, t, 这 条 路 径 能 够 容纳 一 个 单位 的 流通 过 。 结 果 得 到 
图 9-43 所 示 的 图 。 





18943 Hs. a.d. :加 入 1 个 单位 的 流 后 的 G、Gr、CG, 一 一 算法 终止 


由 于 4 从 s 出 发 是 不 可 达到 的 , 因此 算法 到 此 终止 。 结 果 正好 5 个 单位 的 流 是 最 大 值 。 为 
了 看 清 问题 的 所 在 , 设 从 初始 图 开始 我 们 选择 路 径 *，a，d ，:, 这 条 路 径 容纳 3 个 单位 的 流 , 因 
而 好 像 是 个 好 选择 。 然 而 选择 的 结果 却 使 得 在 残余 图 中 不 再 有 从 s 到 + 的 任何 路 径 , 因此 , 我 
们 的 算法 不 能 找到 最 优 解 。 这 是 贪 焚 算 法 行 不 通 的 一 个 例子 。 图 9-44 指出 为 什么 算法 会 失败 。 





图 9-44 如果 初始 动作 是 沿 *，a，d ,上 加 
入 3 个 单位 的 流 得 到 G、Gr、G, 一 一 算法 终止 但 解 不 是 最 优 的 


为 了 使 得 算法 有 效 , 我 们 需要 让 算法 改变 它 的 意向 。 为 此 , 对 于 流 图 中 具有 流 fo, 的 每 
hlv, w), 我 们 将 在 残余 图 中 添加 一 条 容量 为 f. 的 边 (也 ，v)。 事实 上 , 我 们 可 以 通过 
以 相反 的 方向 发 回 一 个 流 而 使 算法 改变 它 的 意向 。 通过 例子 最 能 看 清 这 个 问题 。 我 们 从 原始 
的 图 开始 并 选择 增长 通路 *，a d, c. 得 到 图 9-45 中 的 图 。 
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图 9-45 使 用 正确 的 算法 沿 ;, a, d, + 加 入 3 个 单位 的 流 后 的 图 


TER, 在 残余 图 中 有 些 边 在 Md 之 间 有 两 个 方向 。 或 者 还 有 一 个 单位 的 流 可 以 从 a F 

向 d , 或 者 有 高 达 3 个 单位 的 流 导向 相反 的 方向 一 我 们 可 以 撤销 流 。 现 在 算法 找到 流 为 2 | 1 
的 增长 通路 s， 5，d a, c, to 通过 从 d Bla SA 2 个 单位 的 流 , 算法 从 边 (ae ，d) 取 走 2 个 “3 
单位 的 的 流 , 因此 本 质 上 改变 了 它 的 意向 。 图 9-46 显示 出 新 的 图 。 











图 9-46 ”使 用 正确 算法 沿 s, b.d, a,c, t 加 入 2 个 单位 的 流 后 的 图 


在 这 个 图 中 没有 增长 通路 , 因此 , 算法 终止 。 奇 怪 的 是 , 可 以 证 明 , 如果 边 的 容量 都 是 有 
理 数 , 那么 该 算法 总 以 最 大 流 终止 。 证 明 多 少 有 些 困 难 , 也 超出 了 本 书 的 范围 。 虽然 例 子 正 
好 是 无 峰 的 , 但 这 并 不 是 算法 有 效 工作 所 必须 的 。 我们 使 用 无 圈 图 只 是 为 了 简明 。 

如 果 容量 都 是 整数 且 最 大 流 为 f, 那么, 由 于 每 条 增长 通路 使 流 的 值 至 少 增 1, 故 了 个 阶 
段 足够 ,从 而 总 的 运行 时 间 为 O(/， El), 因为 通过 无 权 最 短路 径 算法 一 条 增长 通路 可 以 
以 O(1E1) 时 间 找 到 。 说 明 这 个 运行 时 间 为 什么 不 好 的 经 典 例子 由 图 9-47 表示 。 








1947 经 典 的 坏 的 增长 情形 
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最 大 流通 过 沿 每 条 边 发 送 1 000 000 并 查验 到 2 000 000 而 看 出 。 随机 的 增长 通路 可 以 沿 
包含 由 a Alb 连接 的 边 的 路 径 连续 增长 - 要 是 这 种 情况 重复 发 生 , 那 就 需要 2 000 000 条 增长 
通路 , 而 此 时 我 们 仅 用 2 条 增长 通路 就 能 得 到 最 大 流 。 

避免 这 个 问题 的 简单 方法 是 总 选择 使 得 流 增长 最 大 的 增长 通路 。 寻找 这 样 一 条 路 径 类 似 于 
求解 一 个 赋 权 最 短路 径 问题 而 对 Dijkstra 算法 的 单线 (single line) 修 改 将 会 完成 这 项 工作 。 如 果 
COP nar SAE, 那么 可 以 证 明 , O(| 正 | log cap,w ) 条 增长 通路 将 足以 找到 最 大 流 。 在 这 种 
情况 下 , 由 于 对 于 增长 通路 的 每 一 次 计算 都 需要 OC E llog |V|) 时 间 , 因此 总 的 时 间 界 为 
OME log | VI log apm) 如 果 容 量 均 为 小 整数 , 则 该 界 可 以 减 为 O(1Elzlog 1 VD) 

另 一 种 选择 增长 通路 的 方法 是 总 选取 具有 最 少 边 数 的 路 径 , 有 理由 设想 , 通过 以 这 种 方 
式 选 择 路 径 不 太 可 能 使 该 路 径 上 出 现 一 条 小 的 、 对 流 有 限制 的 边 。 使 用 这 种 法 则 , 可 以 让 明 
需要 O(|E|1.|V|) 步 增长 , 每 一 步 花费 OCE), 再 使 用 无 权 最 短路 径 算法 , 产生 运行 时 间 
3 OCEPIVD. 

有 可 能 对 这 一 算法 进行 进一步 的 数据 结构 改进 ,存在 几 个 更 加 复杂 的 算法 。 长 期 以 来 对 
界 的 改进 降低 了 该 问题 当前 熟知 的 界 。 虽然 尚未 见 到 OUE | Vi1) 算 法 的 报告 , 但 是 一 些 具 
有 界 OCIEIL Vllog(I VIAE! )) 和 O(IEIIVI+1VI 5) 的 算法 已 经 被 发 现 ( 见 参考 文 
献 )。 还 有 许多 在 一 些 特殊 情形 下 非常 好 的 界 。 例如 , 若 图 除 发 点 和 收 点 外 所 有 的 顶点 都 有 一 
条 容量 为 1 的 入 边 或 一 条 容量 为 1 的 出 边 , 则 该 图 的 最 大 流 可 以 以 时 间 O CLE LEV L2) aR 
到 。 这 些 图 出 现在 许多 应 用 中 。 

产生 这 些 界 的 分 析 过 程 是 相当 复杂 的 , 并且 还 不 清楚 最 坏 情形 的 结果 是 如 何 与 实际 当中 
的 运行 时 间 发 生 关系 的 。 一 个 相关 的 、 其 至 更 困难 的 问题 是 最 小 值 流 (min-cost flow) 问 题 。 每 
条 边 不 仅 有 容量 , 而 且 还 有 每 个 单位 流 的 ( 价 ) 值 ,而 问题 则 是 在 所 有 的 最 大 流 中 找 出 一 个 最 
小 ( 价 ) 值 的 流 来 。 目 前 对 这 两 个 问题 的 研究 都 在 积极 地 进行 。 


9.5 最 小 生成 树 


我 们 将 要 考虑 的 下 一 个 问题 是 在 一 个 无 向 图 中 找 出 一 棵 最 小 生成 树 (minimum spanning 
tree)。 这 个 问题 对 有 向 图 也 是 有 意义 的 ,不 过 找 起 来 更 困难 。 大 体 上 说 来 ,一 个 无 向 图 C 的 
最 小 生成 树 就 是 由 该 图 的 那些 连接 G 的 所 有 顶点 的 边 构 成 的 树 , 且 其 总 价值 最 低 。 最 小 生成 
树 存在 当 且 仅 当 G 是 连通 的 。 虽然 一 个 健壮 的 算法 应 该 指出 G 不 连通 的 情况 , 但 是 我 们 还 
是 假设 G 是 连通 的 , 而 把 算法 的 健壮 性 作为 练习 留 给 读者 

在 图 9-48 中 第 二 个 图 是 第 一 个 图 的 最 小 生成 树 (碰巧 还 是 惟一 的 , 但 这 并 不 代表 一 般 情 
WD. 注意 , 在 最 小 生成 树 中 边 的 条 数 为 | V1 - 1。 最 小 生成 树 是 一 棵 树 , 因为 它 无 轿 ; 因为 最 
小 生成 树 包含 每 一 个 顶点 ,所 以 它 是 生成 树 ; 此 外 , 它 显然 是 包含 图 的 所 有 顶点 的 最 小 的 树 。 
如 果 我 们 需要 用 最 少 的 电线 给 一 所 房子 安装 电路 , 那 就 需要 解决 最 小 生成 树 问题 。 

对 于 任 一 生成 树 T, 如 果 将 一 条 不 属于 T 的 边 e 添加 进来 , 则 产生 一 个 圈 。 如 果 从 该 图 
中 除去 任意 一 条 边 , 则 又 恢复 生成 树 的 特性 。 如 果 边 e 的 值 比 除去 的 边 的 值 低 ,那么 新 的 生 
成 树 的 值 就 比 原生 成 树 的 值 低 。 如 果 在 建立 生成 树 时 所 添加 的 边 在 所 有 避免 成 圈 的 边 中 值 最 
小 , 那么 最 后 得 到 的 生成 树 的 值 不 能 再 改进 、 因为 任意 一 条 替代 的 边 的 值 都 大 于 等 于 已 经 存 
在 于 该 生成 树 中 的 一 条 边 的 值 。 它 指出 ， 对 于 最 小 生成 树 这 种 贪 欲 是 成 立 的 。 我 们 介绍 两 种 
算法 , 它们 的 区 别 在 于 最 小 ( 值 的 ) 边 的 选取 上 。 
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图 9-48 图 G 和 它 的 最 小 生成 树 


9.5.1 Prim 算法 

计算 最 小 生成 树 的 一 种 方法 是 使 其 连续 地 一 步 步 长 成 。 在 每 一 步 , 都 要 把 一 个 节点 当 作 
根 并 往 上 加 边 , 这 样 也 就 把 相关 联 的 顶点 加 到 增长 中 的 树 上 。 

在 算法 的 任 一 时 刻 , 我 们 都 可 以 看 到 一 个 已 经 添加 到 树 上 的 顶点 集 ， 而 其 余 项 点 尚未 加 
到 这 棵 树 中 。 此 时 , 算法 在 每 一 阶段 都 可 以 通过 选择 边 (u,v), 使 得 (u,v) 的 值 是 所 有 u 在 
树 上 但 v 不 在 树 上 的 边 的 值 中 的 最 小 者 ,而 找 出 一 个 新 的 顶点 并 把 它 添加 到 这 棵 树 中 。 图 
9-49 指 出 该 算法 如 何 从 v, 开始 构建 最 小 生成 树 。 开 始 时 ，uwi 在 构建 中 的 树 上 , 它 作为 树 的 根 
但 是 没有 边 。 每 一 步 添加 一 条 边 和 一 个 顶点 到 树 上 。 
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图 9-49 在 每 一 步 之 后 的 Prim 算法 
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我 们 可 以 看 到 , Prim 算法 基本 上 和 求 最 短路 径 的 Dijkstra 算法 一 样 , 因此 和 前 面 一 样 ， 
我 们 对 每 一 个 顶点 保留 值 d, RI pp, 以 及 一 个 指标 , 标示 该 项 点 是 已 知 (known) 的 还 是 未 知 
(unknown) 的 。 这 里 ，d,. 是 连接 vw 到 已 知 顶点 的 最 短 边 的 权 , 而 p. 则 是 导致 4, 改变 的 最 后 
的 顶点。 算法 的 其 余部 分 完全 一 样 , 只 有 一 点 不 同 : 由 于 d, 的 定义 不 同 , 因此 它 的 更 新 法 则 
也 不 同 。 事 实 上 , 更 新 法 则 比 以 前 更 简单 : 在 每 一 个 顶点 v 被 选取 以 后 , 对 于 每 一 个 与 v 邻 
RRA w, d= min(dus cw. vo 

表 的 初始 状态 由 图 9-50 指出 。ui BAIR, v, vs. vs 被 更 新 。 结 果 由 图 9-51 中 的 表 指 
出 。 下 一 个 顶点 选取 vu. 每 一 个 顶点 都 与 v B u 不 考虑 , 因为 它 是 已 知 的 - v 不 变 ， 
因为 d= 2 而且 从 va 到 v; 的 边 的 值 是 3; 所 有 其 他 的 顶点 都 被 更 新 。 图 9-52 显示 得 到 的 结 
果 , 下 一 个 要 选取 的 顶点 是 vz。 这 并 不 影响 任何 距离 。 然后 选取 v3, 它 影响 到 ve 的 距离 , 见 
图 9-53。 选取 v; 得 到 图 9-54, v; 的 选取 迫使 ve 和 vs 进行 调整 。 然 后 分 别 选取 vs 和 vs, 算 
法 完成 。 

最 后 的 表 在 图 9-55 中 给 出 。 生 成 树 的 边 可 以 从 该 表 中 读 出 : Cor, v), Coss v), Cons 
vi). (Cos, vi). Cos, vy). (v7，v4)。 生成 树 总 的 值 是 16. 













































































































































































v | Known d, pe e | Known 4 pr | e | Known d p) 
" 0 00 |^ i 0 0 n 1 0 0 I 
n 0 = 0 |n 9 2» n 9 2n 
" 0 = 0 m 0 4n m 90 10 | 
v 0 = 0 v. 0 in va 1 
vs 0 = 0 ni o = 0 " 0 7 wm | 
" 0 0 w| o =o % 2 5| 
- 0 = 0 ”| o +o} L- 0 v 
图 9.50 在 Prim 算法 中 图 9-51 Ey 图 9-52 TE vy 
使 用 的 表 的 初始 状态 声明 为 已 知 后 的 表 声明 为 已 知 后 的 表 
4 - p 
e | Known 4 pe | c | Known 4 p r | Known 4 p) 
= 1 
n 1 0 0 nj 1 0 0| " 1 9 9| 
n 1 2a m 1 2n n) 1 2n 
" 010205 al o0 2n wi o0; 2n 
m 1 low wu food 1 mn và 1 1 
ET 0 7% e o 6 | |" r 
"n 0 son + o el 的 
Ie | 0 4m z|or 4) lel i sn 
[89.53 XE v; M vs 图 9-54 在 mm 图 9-55 在 ve 和 ws 
先后 声明 为 已 知 后 的 表 声明 为 已 知 后 的 表 选取 后 的 表 (Prim 算法 终止 ) 


该 算法 整个 的 实现 实际 上 和 Dijkstra 算法 的 实现 是 一 样 的 , 对 于 Dijkstra 算法 分 析 所 做 
的 每 一 件 事 都 可 以 用 到 这 里 。 不 过 要 注意 , Prim 算法 是 在 无 向 上 运行 的 , 因此 当 编写 代码 
的 时 候 要 记 住 把 每 一 条 边 都 要 放 到 两 个 邻接 表 中 。 不 用 堆 时 的 运 了 时间 为 O(1V12)、 它 对 于 
稠密 的 图 来 说 是 最 优 的 。 使 用 二 叉 堆 的 运行 时 间 是 O(1Ellog| V 1)， RP RM EET 
好 的 界 。 
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9.5.2 Kruskal 算法 

第 二 种 贪 楚 策 略 是 连续 地 按照 最 小 的 权 选 择 边 , 并 且 当 所 选 的 | 
边 不 产生 图 时 就 把 它 作为 取 定 的 边 - 该 算法 对 于 前 面 例子 中 的 图 的 
实现 过 程 如 图 9-56 所 示 。 

TALE, Kruskal 算法 是 在 处 理 一 个 森林 一 一 树 的 集合 - 开始 的 | 
时 候 , 存在 | Vi| 棵 单 节点 树 , 而 添加 一 边 则 将 两 棵 树 合并 成 一 棵 树 。 | 
当 算法 终止 的 时 候 , 就 只 有 一 棵 树 了 , 这 棵 树 就 是 最 小 生成 树 。 图 
9-57 显示 边 被 添加 到 森林 中 的 顺序 。 
































图 9-56 Kruskal 算法 
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图 9.57 在 每 一 步 之 后 的 Kruskal 算法 

当 添 加 到 森林 中 的 边 足够 多 时 算法 终止 。 实 际 上 , 算法 就 是 要 决定 边 (&，v) 应 该 添加 还 
是 放弃 。 前 一 章 中 的 Union/Find 算法 在 这 里 适用 。 

我 们 用 到 的 一 个 恒定 的 事实 是 , 在 算法 实施 的 任 一 时 刻 , 两 个 项 点 属于 同一 个 集合 当 且 
仅 当 它们 在 当前 的 生成 森林 (spanning forest) 中 连通 。 因 此, 每 个 顶点 最 初 是 在 它 自己 的 集合 
中 。 如果 u 和 ww 在 同一 个 集合 中 , 那么 连接 它们 的 边 就 要 放弃 , 因为 由 于 他 们 已 经 连通 了 ， 
因此 再 添加 边 (&，u) 就 会 形成 一 个 圈 。 如 果 这 两 个 顶点 不 在 同一 个 集合 中 , 则 将 该 边 加 入 ， 
并 对 包含 顶点 u 和 w 的 这 两 个 集合 实施 一 次 合并 。 容易 看 到 , 这 样 将 保持 集合 不 变性 ,因为 
一 日 边 (u,v) 添 加 到 生成 森林 中 , 车 ww 连通 到 而 zx 连通 到 w, 则 zx Aw 必然 是 连通 的 ， 
此 属于 相同 的 集合 。 

固然, 将 边 排序 可 便于 选取 , 不 过 , 用 线性 时 间 建 立 一 个 堆 则 是 更 好 的 想法 。 此 时 ， 
DeleteMin 将 使 得 边 依 序 得 到 测试 。 典型 情况 下 , 在 算法 终止 前 只 有 一 小 部 分 边 需 要 测试 ,尽管 
测试 所 有 的 边 的 情况 也 是 有 可 能 的 。 例 如 , 假设 还 有 一 个 顶点 vs 以 及 值 为 100 的 边 (ws， vs), 
那么 所 有 的 边 就 会 都 要 考察 到 。 图 9-58 中 的 函数 Kruskal 可 以 找 出 一 棵 最 小 生成 树 。 因 为 一 条 
边 由 三 部 分 数据 组 成 ， 所 以 在 某 些 机 器 上 把 优先 队列 实现 成 指向 边 的 指针 数组 比 实现 成 边 的 数 
组 更 为 有 效 。 这 种 实现 的 效果 在 于 , 为 重新 排列 堆 , 需要 移动 的 只 有 那些 指针 ， 而 大 量 的 记录 则 
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void 
Kruskal( Graph G ) 
1 
int EdgesAccepted; 
DisjSet S; 
PriorityQueue H; 
Vertex U, V; 
SetType Uset, Vset; 
Edge E; 
ry Initialize( S ): 
Y d s! d ReadGraphIntoHeapArray( G, M ); 
pes; BuildHeap( H ); 
/* 4 EdgesAccepted = 0; 
Z9 while( EdgesAccepted < NumVertex - 1 ) 
1 
/* 6*/ E = DeleteMin( H ); /* E = (U,V) */ 
tr Uset = Find( U, S ); 
/* 8*/ Vset = Find( V, S ); 
ft 9 if( Uset != Vset ) 
i 
/* Accept the edge */ 
/*10*/ EdgesAccepted++; 
/"1*/ SetUnion( S, USet, VSet ); 
F 
i ! 
图 9-58 Kruskal 算法 的 伪 代码 
该 算法 的 最 坏 情形 运行 时 间 为 OCLE llog| ED, 它 受 堆 操作 控制 。 注意, 由 于 |E|= 


OC V12), 因此 这 个 运行 时 间 实 际 上 是 OC E Log] V1)。 在 实践 中 , 该 算法 要 比 这 个 时 间 界 
指示 的 时 间 快 得 多 。 


9.6 深度 优先 搜索 的 应 用 


深度 优先 搜索 (depth-first search) 是 对 先 序 遍 历 (preorder rraversal) 的 推广 。 我 们 从 某 个 项 
S o 开始 处 理 v, 然后 递归 地 遍历 所 有 与 v 邻接 的 顶点 。 如 果 这 种 过 程 是 对 一 棵 树 进行 , 那 
A, 由 于 |E| = OUVI), 因此 该 树 的 所 有 的 顶点 在 总 时 间 O(1E1) 内 都 将 被 系统 地 访问 
到 。 如 果 我 们 对 任意 的 图 行使 该 过 程 ,为 了 避免 图 我 们 需要 小 心 仔细 。 为 此 ， 当 我 们 访问 一 
个 顶点 v 的 时 候 , 由 于 我 们 当时 已 经 到 了 该 点 处 ， 因此 可 以 标记 该 点 是 访问 过 的 , 并且 对 于 
尚未 被 标记 的 所 有 邻接 项 点 递归 调用 深度 优先 搜索 。 我 们 假设 , 对 于 无 向 图 ， 每 条 边 (v, w) 
在 邻接 表 中 出 现 两 次 : 一 次 是 (v, w), 另 一 次 是 (ww, v). 图 9-59 中 的 函数 执行 一 次 深度 优 
先 搜索 (此 外 绝对 什么 也 不 做 ), 从 而 是 一 个 通用 风格 的 模板 。 





void 
Dfs( Vertex V ) 


Visited[ V ] = True; 
for each W adjacent to V 
if( wWisited[ W 1) 
Dfs( W ); 








图 9-59 深度 优先 搜索 模板 
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(全 局 ) 布 尔 型 数组 Visited | ] 初 始 化 成 false。 通过 只 对 那些 尚未 被 访问 的 节点 递归 调用 
该 函数 . 我 们 保证 不 会 陷入 无 限 的 循环 。 如 果 图 是 无 向 的 且 不 连通 , 或 是 有 向 的 但 非 强 连通 
的 , 这 种 方法 可 能 会 访问 不 到 某 些 节点 。 此 时 , 我 们 搜索 一 个 未 被 标记 的 节点 ,然后 应 用 深 
度 优先 遍历 . 并 继续 这 个 过 程 直到 不 存在 未 标记 的 节点 为 止 。5 甸 为 该 方法 保证 每 一 条 边 只 
访问 一 次 , 所 以 只 要 使 用 邻接 表 , 则 执行 遍历 的 总 时 间 就 是 O(|E| + |V|)。 
9.6.1 无 向 图 

无 向 图 是 连通 的 ， 当 且 仅 当 从 任 一 节点 开始 的 深度 优先 搜索 访问 到 每 一 个 节点 。 因 为 这 
项 测试 应 用 起 来 非常 容易 ， 所 以 我 们 将 假设 我 们 处 理 的 图 都 是 连通 的 。 如 果 它们 不 连通 , 那 
么 我 们 可 以 找 出 所 有 的 连通 分 支 并 将 我 们 的 算法 依次 应 用 于 每 个 分 支 。 

作为 深度 优先 搜索 的 一 个 例子 , 设 在 图 9-60 的 图 中 我 们 从 A 点 开始 。 此 时 , 标记 A 为 
访问 过 的 并 递归 调用 Dfs(B)。Dfs(B) 标 记 B 为 访问 过 的 并 递归 调用 Dfs(C)。Dfs(C) 标 记 
C 为 访问 过 的 并 递归 调用 Dfs(D)。Dfs (DD) 遇 到 A ALB, 但 是 这 两 个 节点 都 已 经 被 访问 过 
T, 因此 没有 递归 调用 可 以 进行 。 Dfs(DD) 也 看 到 C 是 邻接 的 顶点 , 但 C 也 访问 过 了 , 因此 
在 这 里 也 没有 递归 调用 进行 , 于 是 Dfs(D) 返 回 到 Dfs(C)。Dfs(C) 看 到 B EPRA, 忽略 
€. 并 发 现 以 前 没 看 见 的 顶点 E 也 是 邻接 点 , 因此 调用 Dfs(E)。D/s(E) 将 EE 作 标记 , 忽略 
A FIC, 并 返回 到 Dfs(C)。Dfs(C) 返 回 到 DR(B)。DR(B) 忽 略 A 和 DD 并 返回 。Dfs(A) 
忽略 D 入 且 返 回 。( 我 们 实际 上 已 经 接触 每 条 边 两 次 ,一 次 是 作为 边 (vu, w), 再 一 次 是 作 
为 边 (w，v), 但 这 实际 上 是 每 个 邻接 表 项 接触 一 次 。) 





tc 


图 9-60 一 个 无 向 图 
我 们 以 图 形 来 描述 深度 优先 生成 树 (depth-first spanning tree) 的 步 又。 该 树 的 根 是 A, 是 
第 一 个 被 访问 到 的 项 点。 图 中 的 每 一 条 边 (v， 忆 ) 都 出 现在 树 上 。 如 果 当 我 们 处 理 (v， w AS 
发 现 w 是 未 被 标记 的 , RARER w, VRR v 是 未 标记 的 ， 那么 我 们 就 用 树 的 一 条 
边 表 示 它 。 如 果 当 我 们 处 理 (v，te ) 时 发 现 w 已 被 标记 , HEARNE w, v) 时 发 现 v 也 
已 有 标记 , 那么 我 们 就 画 一 条 虚线 , 并 称 之 为 背 向 边 (back edge), 表示 这 条 “ 边 "实际 上 不 是 
树 的 一 部 分 。 图 9-60 中 的 图 的 深度 优先 搜索 在 图 9-61 中 表 出 。 


其 实现 的 一 种 有 效 方法 是 从 n 开始 深度 优先 搜索 。 如 果 我 们 需要 重新 开始 深度 优先 搜索 则 考虑 一 个 未 标记 的 
顶点 序列 m ue LI y 是 最 后 一 次 深度 优先 搜索 开始 的 顶点- 这 保证 整个 算法 只 花费 O(| V1) 时 间 查 找 


那些 使 新 的 深度 优先 搜索 树 开始 的 顶点 
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图 9.61 上 图 的 深度 优先 搜索 


树 将 模拟 我 们 执行 的 遍历 。 只 使 用 树 的 边 对 该 树 的 先 序 编号 告诉 我 们 这 些 项 点 被 标记 的 
顺序 。 如 果 图 不 是 连通 的 , 那么 处 理 所 有 的 节点 (和 边 ) 则 需要 多 次 调用 Dis, 每 次 都 生成 一 棵 
树 , 整个 集合 就 是 深度 优先 生成 森林 (depth-first spanning forest). 

9.6.2 MEME 

如 果 一 个 连通 的 无 向 图 中 的 任 一 项 点 删除 之 后 , 剩 下 的 图 仍然 连通 , 那么 这 样 的 无 向 连 
通 图 就 称 为 是 双 连 通 的 (biconnected)。 上 例 中 的 图 是 双 连 通 的 。 如 果 例 中 的 节点 是 计算 机 ， 
边 是 链 路 , 那么 , 若 有 任 一 台 计算 机 出 故障 而 不 能 运行 , 则 网 络 邮件 并 不 受 影响 , 当然 , 与 这 
台 坏 计算 机 有 关 的 邮件 除外 。 类 似 地 ,如 果 一 个 公共 运输 系统 是 双 连 通 的 , 那么 , 若 某 个 站 
点 被 破坏 , 则 用 户 总 可 选择 另外 的 旅行 路 径 。 

如 果 一 个 图 不 是 双 连 通 的 , 那么 , 将 其 删除 后 图 将 不 再 连通 的 那些 顶点 叫做 割 点 (articu- 
lation point)。 这些 节 点 在 许多 应 用 中 是 很 重要 的 。 图 9-62 中 的 图 不 是 双 连 通 的 : 顶点 C MD 
是 割 点 。 删 除 顶 点 C 使 图 G 不 连通 , 而 删除 硕 点 D 则 使 E 和 下 从 图 G 的 其 余部 分 断 离 。 















图 9-62 RAMS CD B 


深度 优先 搜索 提供 一 种 找 出 连通 图 中 的 所 有 制 点 的 线性 时 间 算 法 。 首 先 , 从 图 中 任 一 顶 
点 开始 , 执行 深度 优先 搜索 并 在 顶点 被 访问 时 给 它们 编号 。 对 于 每 一 个 顶点 v 我 们 称 其 先 序 
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编号 为 Num(v)。 然后 , 对 于 深度 优先 搜索 生成 树 上 的 每 一 个 顶点 v, 计算 编号 最 低 的 顶点 ， 
我 们 称 之 为 Low(v), 该 点 从 v 开始 , 通过 树 的 零 条 或 多 条 边 且 可 能 还 有 一 条 背 向 边 而 (以 
该 序 ) 达 到 。 图 9-63 中 的 深度 优先 搜索 树 首先 指出 先 序 编号 , 然后 指出 在 上 述 法 则 下 可 达到 
的 最 低 编号 顶点 。 





图 9-63 上 图 的 深度 优先 树 , 节点 标 有 Num 和 Low 


从 A、B 和 C 开始 的 可 达到 最 低 编号 顶点 为 1(A), 因为 它们 都 能 够 通过 树 的 边 到 D, 
然后 在 由 一 条 背 向 边 回 到 A。 我 们 可 以 通过 对 该 深度 优先 生成 树 执行 一 次 后 续 遍 历 有 效 地 算 
出 Lows 根据 low 的 定义 可 知 Low(v) 是 

1, Num(v) 

2. 所 有 背 向 边 (v,w') 中 的 最 低 Num (w) 

3. 树 的 所 有 边 (v,w') 中 的 最 低 Low (x) 

中 的 最 小 者 。 

第 一 个 条 件 是 不 选取 边 , 第 二 种 方法 是 不 选取 树 的 边 而 是 选取 一 条 背 向 边 ,第 三 种 方法 
则 是 选择 树 的 某 些 边 以 及 可 能 还 有 一 条 背 向 边 。 第 三 种 方法 可 用 一 个 递归 调用 简明 地 描述 。 
由 于 我 们 需要 对 o 的 所 有 儿子 计算 出 Lore 值 后 才能 计算 Low Co), 因此 这 是 一 个 后 序 遍 历 。 
UFER, w), 我 们 只 要 检查 Num (um) 和 Num (ae) 就 可 以 知道 它 是 树 的 一 条 边 还 是 
一 条 背 向 边 。 因此 ，Low(v) 容 易 计算 : 我 们 仅 需 扫 描 v 的 邻接 表 , 应 用 适当 的 法 则 ,并 记 住 
最 小 值 。 所 有 的 计算 花费 O(IE| + |V1) 时 间 。 

剩 下 要 做 的 就 是 利用 这 些 信息 找 出 所 有 的 割 点 。 根 是 割 点 当 且 仅 当 它 有 多 于 一 个 的 儿 
子 ， 因 为 如 果 它 有 两 个 儿子 ,那么 删除 根 则 使 得 节点 不 连通 而 分 布 在 不 同 的 子 树 上 ; 如 果 根 
只 有 一 个 儿子 ,那么 除去 该 根 只 不 过 是 断 离 该 根 。 对 于 任何 其 他 顶点 v, 它 是 割 点 当 且 仅 当 
它 有 某 个 儿子 w HF Low(w)> Num v). 注意, 这 个 条 件 在 根 处 总 是 满足 的 ; 因此 , 需要 
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进行 特别 的 测试 。 

当 我 们 考查 算法 确定 的 割 点 , 即 C RUD 时 , 证 明 的 “if"( 当 ) 部 分 是 明显 的 。D 有 一 个 儿 
TE, H Low(E)>Num(D), 二 者 都 是 4。 因此 , 对 下 来 说 只 有 一 种 方法 到 达 D 上 面 的 任 
何 一 点 , 那 就 是 要 通过 D. 类 似 地 ，C 也 是 一 个 割 点 , 因为 Low(G)>Num(C). 为 了 证 明 
该 算法 正确 , 我 们 必须 证 明 论断 的 “only if"( 仅 当 ) 部 分 成 立 ( 即 , 它 找到 所 有 的 割 点 )。 我 们 把 
它 留 作 一 道 练习 。 作为 第 二 个 例子 , 我 们 指出 (图 9-64) 同 样 在 这 个 图 上 应 用 该 算法 在 顶点 C 
开始 深度 优先 搜索 的 结果 。 





图 9-64 在 C 开始 深度 优先 搜索 所 得 到 的 深度 优先 树 


最 后 , 我 们 给 出 伪 代码 实现 该 算法 。 为 使 程序 简单 设 数 组 Visited [ ] (初始 化 为 false), 
Num]. Lowl ] 和 Parent[ ] 为 全 局 变量 。 我 们 还 有 一 个 全 局 变量 叫做 Counter, J A HR 
历 编号 Num[ ] 赋 值 , 将 Counter 初始 化 为 1。 通 常 这 在 实践 中 不 是 一 个 好 的 程序 设计 , 不过， 
包含 所 有 的 声明 和 传递 那些 额外 的 参数 将 会 模糊 程序 的 逻辑 结构 。 我们 还 将 省 略 对 根 的 容易 
实现 的 测试 。 

正如 我 们 已 经 提 到 的 ,该 算法 可 以 通过 执行 一 次 先 序 遍 历 计算 Num 而 后 一 趟 后 序 遍历 
计算 Low 来 实现 。 第 三 趟 遍历 可 以 用 来 检验 哪些 顶点 满足 割 点 的 标准 。 然 而 , DUET s BRUT 
是 一 种 浪费 。 第 一 趟 在 图 9-65 中 表 出 。 





/* Assign Num and compute Parents */ 


void 
AssignNum( Vertex V ) 


Vertex W; 


fiu Num[ V ] = Counter++; 

/* 2 Visited[ V ] = True; 

/ea 3e/ for each W adjacent to V 

f* an if( iVisited[ W ] ) 
{ 

Its Parent[ W ] = Vi 

/* 9 AssignNum( W ); 


} 








图 9-65 ”对 顶点 的 Num 赋值 的 例 程 ( 伪 代 码 ) 


图 论 草 法 





第 二 起 和 第 三 趟 饥 历 都 是 后 序 遍 历 , 可 以 通过 图 9-66 中 的 代码 来 实现 。 第 8 行 处 理 一 个 
特殊 的 情况 。 如 果 w 邻接 到 wv, 那么 递归 调用 w 将 发 现 v 邻接 到 ww。 这 不 是 一 条 背 向 边 , 而 
只 是 一 条 已 经 考虑 过 且 需 要 忽略 的 边 。 BU, 该 过 程 计算 出 Low[ ] 和 Num ] 成 员 的 最 小 值 ， 


正如 算法 指定 的 那样 。 





/* 1*5 
/* 2°/ 
/*3*/ 
It ae) 
/* st 
/* 6 
TEPI 


/* gn 
/* 9*5 





/* Assign Low; also check for articulation points */ 


void 
AssignLow( Vertex V ) 


Vertex Wi 


Low[ V ] = Num[ VJ; /* Rule 1 */ 

for each W adjacent to V 

{ 
if( Num W) > Num[ V ] ) /* Forward edge */ 
t 


Assignlow( W ); 
if( Low[ W J >= Num[ V ] ) 
printf "Xv is an articulation point\n", v ); 
Low[ V ] = Min Low[ V J, Low[ W ] ); /* Rule 3 */ 
) 
else 
if( Parent[ V ] != W) /* Back edge */ 
Low[ V ) = MinC Lowl V ), Nun[ W J); /* Rule 2 */ 
) 
} 








图 9-66 计算 Low 并 检验 是 否 割 点 的 伪 代码 (忽略 对 根 的 检验 ) 


不 存在 一 个 遍历 一 定 是 先 序 遍历 或 后 序 遍 历 的 法 则 。 在 递归 调用 前 和 递归 调用 后 都 有 可 
能 对 两 者 进行 处 理 。 图 9- 67 中 的 过 程 将 两 个 例 程 AssignNum 和 AssignLow 结合 成 一 种 直接 





的 方式 得 到 函数 FindArt。 
void 
FindArt( Vertex V ) 
{ 
Vertex Wi 
i/ Visited{ V ] = True; 
/* 2*/ Low[ V ] = Num[ V ] = Countere«; /* Rule 1 */ 
AM for each W adjacent to V 
fran if( !Visited[ W] ) /* Forward edge */ 
{ 
Ps Parent[ W ] = V; 
/* 6% FindArt( W 5; 
T vell A ifC Low[ W ] >= Num[ V ] ) 
/* 8*/ printf( "Xv is an articulation point\n", v ); 
sy Low[ V ] - MinC Low[ VJ, Low[ W ] 2; /* Rule 3 */ 
} 
else 
/710*/ if( Parent[ V ] !- W) /* Back edge af 
Jens Low[ V ) = MinC Low[ V J, Num[ W ) ); /* Rule 2 */ 
} 
) 











图 9-67 在 一 次 深度 优先 搜索 (忽略 对 根 的 检测 ) 中 对 割 点 的 检测 ( 伪 代码 ) 


9.6.3 欧 拉 回路 


考虑 图 9-68 中 的 三 个 图 。 一 个 流行 的 游戏 是 用 钢笔 重 画 这 些 图 ， 每 条 线 恰 好 画 一 次 。 在 
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画图 的 时 候 钢 笔 不 要 从 纸 上 离 开 。 作为 一 个 附加 的 问题 , 要 在 结束 画图 时 , 使 钢笔 回 到 开始 
画图 时 的 起 点 上 。 该 游戏 有 一 个 非常 简单 的 解法 。 如 果 你 想 尝试 求解 该 问题 , 那么 现在 就 可 
以 试 一 试 。 











图 9-68 三 幅 图 画 
第 一 个 图 仅 当 起 点 在 左下 角 或 右 下 角 时 可 以 画 出 , 而且 不 可 能 结束 在 起 点 处 。 第 二 个 图 
容易 画 出 , 它 的 终止 点 和 起 点 相同 , 但 是 , 第 三 个 图 在 游戏 的 限制 条 件 下 根本 画 不 出 来 。 
我 们 可 以 通过 给 每 个 交点 指定 一 个 顶点 而 把 这 个 问题 转化 成 图 论 问题 。 此 时 , 图 的 边 可 
以 自然 的 方式 规定 , 如 图 9-69。 
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图 9-69 将 游戏 转化 成 图 


将 问题 转化 之 后 , 我 们 必须 在 图 中 找 出 一 条 路 径 , 使 得 该 路 径 对 图 的 每 条 边 恰好 访问 一 
次 。 如 果 我 们 要 解决 “附加 的 问题 ”, 那么 我 们 就 必须 找到 一 个 圈 , 该 圈 恰 好 经 过 每 条 边 一 次 。 
这 种 图 论 问题 在 1736 年 由 欧 拉 解决 , 它 标志 着 图 论 的 诞生 。 根 据 特定 问题 的 叙述 不 同 , 这 种 
问题 通常 叫做 欧 拉 路 径 (Euler path, 有 时 称 欧 拉 环 游 一 一 Euler tour) 或 欧 拉 回路 (Euler cir- 
cuit) B. 虽然 欧 拉 环 游 和 欧 拉 回 路 问题 稍 有 不 同 , 但 是 却 有 相同 的 基本 解 。 因此, 在 这 一 
节 我 们 将 考虑 欧 拉 回 路 问题 。 

能 够 做 的 第 一 个 观察 是 , 其 终点 必须 终止 在 起 点 上 的 欧 拉 回路 只 有 当 图 是 连通 的 并 且 每 
个 顶点 的 度 ( 即 , 边 的 条 数 ) 是 偶数 时 才 有 可 能 存在 。 这 是 因为 ,在 欧 拉 回 路 中 , 一 个 顶点 有 
WEA, 则 必然 有 边 离开 。 如 果 任 一 顶点 o 的 度 为 奇数 , 那么 实际 上 我 们 早晚 将 会 达到 这 样 
一 种 地 步 , 即 只 有 一 条 进入 v 的 边 尚未 访问 到 , 若 沿 该 边 进入 v 点 ,那么 我 们 只 能 停 在 顶点 
,不 可 能 再 出 来 。 如 果 恰 好 有 两 个 项 点 的 度 是 奇数 , 那么 当 我 们 从 一 个 奇数 度 的 顶点 出 发 
最 后 终止 在 另 一 个 奇数 度 的 顶点 时 , 仍然 有 可 能 得 到 一 个 欧 拉 环 游 。 这 里 ， 欧 拉 环 游 是 必须 
访问 图 的 每 一 边 但 最 后 不 一 定 必须 回 到 起 点 的 路 径 。 如 果 奇 数 度 的 顶点 多 于 两 个 , 那么 欧 拉 
环 游 也 是 不 可 能 存在 的 。 

上 一 段 的 观察 给 我 们 提供 了 欧 拉 回路 存在 的 一 个 必要 条 件 。 不过, 它 并 未 告诉 我 们 满足 
该 性 质 的 所 有 的 连通 图 必然 有 一 个 欧 拉 回 路 , 也 没有 指导 我 们 如 何 找 出 欧 拉 回 路 。 事实 上 ， 
这 个 必要 条 件 也 是 充分 的 。 就 是 说 ， 所 有 项 点 的 度 均 为 偶数 的 任何 连通 图 必然 有 欧 拉 回 路 。 
不 仅 如 此 ,我 们 还 可 以 以 线性 时 间 找 出 这 样 一 条 回路 。 

由 于 我 们 可 以 用 线性 时 间 检 测 这 个 充分 必要 条 件 ， 因此 可 以 假设 我 们 知道 存在 一 条 欧 拉 
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回路 。 此 时 , 基本 算法 就 是 执行 一 次 深度 优先 搜索 。 有 大 量 “明显 的 "解决 方案 但 是 却 都 行 不 
通 , 我 们 罗列 了 一 些 在 练习 中 。 

主要 问题 在 于 , 我 们 可 能 只 访问 了 图 的 一 部 分 而 提前 返回 到 起 点 。 如 果 从 起 点 出 发 的 所 
有 边 均 已 用 完 , 那么 图 中 就 会 有 的 部 分 遍历 不 到 。 最 容易 的 补救 方法 是 找 出 有 尚未 访问 的 边 
的 路 径 上 的 第 一 个 顶点 , 并 执行 另外 一 次 深度 优先 搜索 。 这 将 给 出 另外 一 个 回路 ,把 它 拼接 
到 原来 的 回路 上 。 继续 该 过 程 直到 所 有 的 边 都 被 遍历 到 为 止 。 

作为 一 个 例子 , 考虑 图 9-70 中 的 图 。 容易 看 出 ,这 个 图 有 一 个 欧 拉 回 路 。 设 从 顶点 5 开 
dá, 我 们 遍历 5、4、10、5, 此 时 我 们 已 无 路 可 走 , 图 的 大 部 分 都 还 未 遍历 到 。 情况 如 图 9-71 
所 示 。 











图 9-70 欧 拉 回 路 问题 的 图 
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图 9.7! 遍历 5. 4, 10, 5 后 剩 下 的 图 

此 时 , 我 们 从 顶点 4 继续 进行 , 它 仍然 还 有 没 用 到 的 边 。 结果 ,又 得 到 路 径 4, 1, 3, 7， 
4, 11, 10, 7, 9, 3, 4。 如 果 我 们 把 这 条 路 径 拼接 到 前 面 的 路 径 5, 4, 10, 5 上 , 那么 我 们 就 得 
到 一 条 新 的 路 径 5, 4, 1, 3, 7, 4, 11, 10, 7, 9, 3, 4, 10, 5. 

此 后 , 剩 下 的 图 表示 在 图 9-72 中 。 注意, 在 这 个 图 中 , 所 有 的 顶点 的 度 必然 都 是 偶数 ， 
因此 , 我 们 保证 能 够 找到 一 个 圈 再 拼接 上 。 剩 下 的 图 可 能 不 是 连通 的 , 但 这 并 不 重要 。 路 径 
上 存 有 未 被 访问 的 边 的 下 一 个 顶点 是 3。 此 时 可 能 的 回路 可 以 是 3, 2, 8, 9, 6, 3。 当 拼 接 进 
来 之 后 , 我 们 得 到 路 径 5, 4, 1, 3, 2, 8, 9, 6, 3, 7, 4, 11, 10, 7, 9, 3, 4, 10, 5。 


© 
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9-72 遍历 5. 4, 1, 3. 7. 4. 11. 10, 7, 9. 3. 4, 10, 5 后 的 图 
剩 下 的 图 在 图 9-73 中 。 在 该 路 径 上 ， 带 有 未 遍历 边 的 下 一 个 顶点 是 9, 算法 找到 回路 9， 
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12, 10, 9. 当 把 它 拼接 到 当前 路 径 中 时 , 我 们 得 到 回路 5, 4, 1, 3, 2, 8, 9, 12, 10, 9, 6, 3,7, 
4, 11, 10, 7, 9, 3, 4, 10, 5。 当 所 有 的 边 都 被 遍历 时 , 算法 终止 , 我 们 得 到 一 个 欧 拉 回路 - 
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tero ® 
189-73. 在 路 径 5, 4, 1, 3, 2, 8. 9. 6,3, 7,4, 11, 10, 7, 9, 3, 4, 10, 5 后 剩 下 的 图 

为 使 算法 更 有 效 ,必须 使 用 适当 的 数据 结构 。 我 们 将 概述 想法 而 把 实现 方法 留 作 练习 。 
为 使 拼接 简单 ,应 该 把 路 径 作为 一 个 链表 保留 。 为 避免 重复 扫描 邻接 表 , 对 于 每 一 个 邻接 表 
我 们 必须 保留 一 个 指向 最 后 扫描 到 的 边 的 指针 。 当 拼接 进 一 个 路 径 时 , 必须 从 拼接 点 开始 搜 
索 新 项 点， 从 这 个 新 项 点 进行 下 一 轮 深度 优先 搜索 。 这 将 保证 在 整个 算法 期 间 对 顶点 搜索 阶 
段 所 进行 的 全 部 工作 量 为 O(1E1)。 使 用 适当 的 数据 结构 , 算法 的 运行 时 间 为 
O(IEI + IVI). 

一 个 非常 相似 的 问题 是 在 无 向 图 中 寻找 一 个 简单 的 圈 , 该 图 通过 图 的 每 一 个 顶点。 这 个 
问题 称 为 哈密 尔 顿 图 问题 (Hamiltonian cycle problem)。 昌 然 看 起 来 这 个 问题 似乎 差不多 和 欧 
拉 回 路 问题 一 样 , 但 是 , 对 它 却 没 有 已 知 的 有 效 算法 。 我 们 将 在 9.7 节 中 再 次 看 到 这 个 问题 。 
9.6.4 有 向 图 

利用 与 无 向 图 相同 的 思路 , 也 可 以 通过 深度 优先 搜索 以 线性 时 间 遍 历 有 向 图 。 如 果 图 不 
是 强 连通 的 , 那么 从 某 个 节点 开始 的 深度 优先 搜索 可 能 访问 不 了 所 有 的 节点 。 在 这 种 情况 下 
我 们 在 某 个 未 作 标记 的 节点 处 开始 , 反复 执行 深度 优先 搜索 , 直到 所 有 的 节点 都 被 访问 到 。 
作为 例子 , 考虑 图 9-74 中 的 有 向 图 。 











图 9-74 一 个 有 向 图 


我 们 在 顶点 B 任意 开始 深度 优先 搜索 。 它 访问 项 点 B. C, A, D, EMF, 然后 , 在 某 
个 未 访问 的 顶点 再 重新 开始 。 我 们 任意 地 选择 在 H 开始 , W IAJ RE, 在 G 点 开始 ， 
它 是 最 后 一 个 需要 访问 的 顶点 。 对 应 的 深度 优先 搜索 树 如 图 975 中 所 示 。 
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图 9-75 ”前面 的 图 的 深度 优先 搜索 


深度 优先 生成 森林 中 虚线 箭头 是 一 些 (vu, ww) 边 , 其 中 的 在 考查 时 已 经 作 了 标记 。 在 无 
向 图 中 , 它们 总 是 一 些 背 向 边 , 但 是 我 们 可 以 看 到 , 存在 三 种 类 型 的 边 并 不 通 向 新 的 顶点。 首先 
是 一 些 背 向 边 如 (A，B) 和 (1，HH)。 还 有 一 些 前 向 边 (forward edge) 如 (C，D) 和 (C, E), 它们 从 
树 的 一 个 节点 通 向 一 个 后 裔 。 最 后 就 是 一 些 交叉 边 , MF, CAG, F), 它们 把 不 直接 相关 的 
两 个 树 节点 连接 起 来 。 深 度 优先 搜索 森林 一 般 通过 把 一 些 子 节 点 和 一 些 新 的 树 从 左 到 右 添 加 到 
森林 中 形成 。 在 以 这 种 方式 构成 的 有 向 图 的 深度 优先 搜索 中 , 交叉 边 总 是 从 右 到 左 行进 的 。 

有 些 使 用 深度 优先 搜索 的 算法 需要 区 别 非 树 边 的 三 种 类 型 。 当 进行 深度 优先 搜索 时 这 是 
容易 检验 的 , 我 们 把 它 留 作 一 道 练习 。 

深度 优先 搜索 的 一 种 用 途 是 检测 一 个 有 向 图 是 耕 是 无 图 图 , 法 则 如 下 : 一 个 有 向 图 是 无 
圈 图 当 且 仅 当 它 没有 背 向 边 。( 上 面 的 图 有 背 向 边 , 因此 它 不 是 无 圈 图 。) 读 者 可 能 还 记得 ， 
拓扑 排序 也 可 以 用 来 确定 一 个 图 是 否 是 无 圈 图 。 进 行 拓扑 排序 的 另 一 种 方法 是 通过 深度 优先 
生成 森林 的 后 序 遍 历 给 顶点 指定 拓扑 编号 N,N - 1, …, 1, 只 要 图 是 无 图 的 , 这 种 排序 就 是 
一 致 的 。 

9.6.5 查找 强 分 支 

通过 执行 两 次 深度 优先 搜索 , 我 们 可 以 检测 一 个 有 向 图 是 否 是 强 连 通 的 ， 如果 它 不 是 强 
连通 的 , 那么 我 们 实际 上 可 以 得 到 顶点 的 一 些 子 集 , 它们 到 其 自身 是 强 连通 的 。 这 也 可 以 只 
用 一 次 深度 优先 搜索 做 到 , 不 过 , 此 处 所 使 用 的 方法 理解 起 来 要 简单 得 多 。 

首先 , 在 输入 的 图 G 上 执行 一 次 深度 优先 搜索 。 通 过 对 深度 优先 生成 森林 的 后 序 遍历 将 
G 的 顶点 编号 , 然后 再 把 G 的 所 有 的 边 反 向 , 形成 G,。 图 9-76 中 的 图 代表 图 9-74 所 示 的 图 
G 的 G,; 顶点 用 它们 的 编号 表 出 。 

该 算法 通过 对 G, 执行 一 次 深度 优先 搜索 而 完成 , 总 是 在 编号 最 高 的 顶点 开始 一 次 新 的 
深度 优先 搜索 。 于 是 , 我们 在 顶点 G 开始 对 G, 的 深度 优先 搜索 ，G 的 编号 为 10。 但 该 项 点 
不 通 向 任何 顶点 , 因此 下 一 次 搜索 在 H AFH 这 次 调用 访问 1 和 J。 下 一 次 调用 在 B 点 开 
始 并 访问 A、C 和 下 。 此 后 的 调用 是 DA(D) 及 最 终 调用 Ds(E)。 结 果 得 到 的 深度 优先 生成 
森林 如 图 9-77 中 所 示 。 

在 该 深度 优先 生成 森林 中 的 每 棵 树 (如 果 完全 忽略 所 有 的 非 树 边 , 那么 这 是 很 容易 看 出 
的 ) 形 成 一 个 强 连通 的 分 支 。 因此 ,对 于 我 们 的 例子 , 这 些 强 连通 分 支 为 |G1, 1H, L JI, 
1B, A, C, Fl, 1D! 和 |E!。 

为 了 理解 该 算法 为 什么 成 立 , 首先 注意 到 , 如果 两 个 项 点 v 和 ww 都 在 同一 个 强 连通 分 支 
中 , 那么 在 原 图 G 中 就 存在 从 v 到 HERA w 到 wv 的 路 径 ， 因此 , 在 G, 中 也 存在 。 BL 
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图 9.76 通过 对 (图 9.74 中 的 ) 图 G 的 后 序 遍 历 所 编号 的 Gy 
人 





图 9.77 C, 的 深度 优先 搜索 一 一 强 分 支 为 G1, IH, I Ji, 1B, A, C, Fi, IDI, JE] 


E, 如果 两 个 顶点 v 和 ww KEG, 的 同一 个 深度 优先 生成 树 中 , 那么 显然 它们 也 不 可 能 在 同 
一 个 强 连 通 分 支 中 。 

为 了 证 明 该 算法 成 立 , 我 们 必须 指出 ， 如 果 两 个 顶点 v 和 te 在 G, 的 同一 个 深度 优先 生 
成 树 中 , 那么 必然 存在 从 v 到 ze 的 路 径 和 从 w Slo 的 路 径 。 等 价 地 , 我 们 可 以 证 明 , 如 果 v 
是 G, DA v 的 深度 优先 生成 树 的 根 , 那么 存在 一 条 从 x 到 = AU o 到 zz 的 路 径 。 对 we 应 用 
相同 的 推理 则 得 到 一 条 从 c 到 zw 和 从 ze 到 < 的 路 径 。 这 些 路 径 则 意味 着 那些 从 v 到 ww 和 从 
w 到 v( 经 过 工 ) 的 路 径 。 

HF v Rex 在 G, 的 深度 优先 生成 树 中 的 一 个 后 背 , 因此 存在 G, 中 一 条 从 xz 到 v 的 路 
B, 从 而 存在 G 中 一 条 从 v 到 xz 的 路 径 。 此 外 , 由 于 z 是 根 节点 , 因此 x 从 第 一 次 深度 优先 
搜索 得 到 更 高 的 后 序 编号 。 于 是 , 在 第 一 次 深度 优先 搜索 期 间 所 有 处 理 ”的 工作 都 在 zx 的 工 
作 结 束 前 完成 。 既 然 存在 一 条 从 v 到 的 路 径 , 因此 o 必然 是 z+ 在 G 的 生成 树 中 的 一 个 后 诊 
一 否则 o 将 在 x 之 后 结束 。 这 意味 着 G 中 从 x Slo 有 一 条 路 径 ,证 明 完成 。 


9.7 ”NP- 完 全 性 介绍 


在 这 一 章 , 我 们 已 经 看 到 各 种 各 样 图 论 问 题 的 解法 。 所 有 这 些 问题 都 有 一 个 多 项 式 运行 
时 间 ， 除 网 络 流 问题 外 , 运行 时 间或 者 是 线性 的 , 或 者 稍微 比 线性 多 一 些 (O(1E log] E ))。 
顺便 指出 , 我 们 还 提 到 ,对 于 某 些 问题 , 有 些 变化 似乎 比 原始 问题 要 困难 。 

回忆 欧 拉 回路 问题 , 它 要 求 找 出 一 条 路 径 恰好 经 过 每 条 边 一 次 , 该 问题 是 线性 时 间 可 解 
的 。 哈密 尔 顿 图 问题 要 找 一 个 简单 圈 , 该 圈 包 含 每 一 个 顶点。 对 于 这 个 问题 ， 尚 不 知道 有 线 
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对 于 有 向 图 的 单 发 点 无 权 最 短路 径 问题 也 是 线性 时 间 可 解 的 。 但 对 应 的 最 长 简单 路 径 问 
题 (longest-simple-path) 尚 不 知 有 线性 时 间 算 法 。 

这 些 问题 的 变种 ,其 实际 情况 比 我 们 描述 的 还 要 糟 , 对 于 这 些 变 种 问题 不 仅 不 知道 线性 
算法 , 而 且 不 存在 保证 以 多 项 式 时 间 运 行 的 已 知 算法 。 这 些 问题 的 一 些 熟知 算法 对 于 某 些 输 
入 可 能 要 花费 指数 时 间 。 

在 这 一 节 , 我 们 将 简要 考查 这 种 问题 。 这 种 问题 是 相当 复杂 的 ,因此 我 们 将 只 进行 快速 
和 非 正式 的 探讨 。 这 样 一 来 , 我 们 的 讨论 可 能 (必然 地 ) 处 处 都 或 多 或 少 因 不 准确 而 有 些 
缺憾 。 

我 们 将 看 到 , 存在 大 量 重要 的 问题 , 它们 在 复杂 性 上 大 体 是 等 价 的。 这些 问题 形成 一 个 
类 , 叫做 NP- 完 全 (NP-complete) 问 题 。 这 些 NP- 完 全 问题 精确 的 复杂 度 仍然 需要 确定 并 且 在 
计算 机 理论 科学 方面 仍然 是 最 重要 的 开放 性 问题 。 要么 所 有 这 些 问题 有 多 项 式 时 间 解 法 , 要 
么 它们 都 没有 多 项 式 时 间 解 法 。 

9.7.1 难 与 易 

在 给 问题 分 类 时 , 第 一 步 要 考虑 的 是 分 界 。 我们 已 经 看 到 , 许多 问题 可 以 用 线性 时 间 求 
解 。 我们 还 看 到 某 些 O(logN ) 的 运行 时 间 , 但 是 它们 要 么 假定 已 做 某 些 预 处 理 ( 如 输入 数据 
已 读 人 或 数据 结构 已 建立 ), 要 么 出 现在 运算 实例 中 。 例如 ，Gcd( 最 高 公 因 数 ) 算 法 ， 当 用 于 
两 个 数 M 和 N 时 , 花费 O(logN) 时 间 。 由 于 这 两 个 数 分 别 由 log M 和 logN 个 二 进 制 位 组 
成 , 因此 Ged 算法 实际 上 花费 的 时 间 对 于 输入 数据 的 量 或 大 小 而 言 是 线性 的 。 由 此 可 知 ， 当 
我 们 度量 运行 时 间 时 , 我们 将 把 运行 时 间 考 虑 成 输入 数据 的 量 的 函数 。 一 般 说 来 , 我们 不 能 
期 望 运行 时 间 比 线性 更 好 。 

另 一 方面 , 确实 存在 某 些 真正 难 的 问题 。 这 些 问题 是 如 此 的 难 ， 以 至 于 它们 不 可 能 解 出 。 
但 这 并 不 意味 着 只 能 发 出 叹息 ,期 待 天 才 来 求解 该 问题 。 正 如 实数 不 足以 表示 x «0 的 解 那 
样 ,可 以 证 明 , 计算 机 不 可 能 解决 碰巧 发 生 的 每 一 个 问题 。 这 些 “ 不 可 能 " 解 出 的 问题 叫做 不 
可 判定 问题 (undecidable problem) 。 

一 个 特殊 的 不 可 判定 问题 是 停机 问题 (halting problem) . 是否 能 够 让 你 的 C 编译 器 拥有 
一 个 附加 的 特性 ， 即 不 仅 能 够 检查 语法 错误 ,而且 还 能 够 检查 所 有 的 无 限 循环 ? 这 似乎 是 一 
个 难 的 问题 , 但 是 我 们 或 许 期 望 , 假如 革 些 非常 聪明 的 程序 员 花 上 足够 的 时 间 , 他 们 也 许 能 
够 编制 出 这 种 增强 型 的 编译 器 。 

该 问题 是 不 可 判定 问题 的 直观 原因 在 于 , 这 样 一 个 程序 可 能 很 难 检查 它 自己 。 由 于 这 个 
原因 , 有 时 这 些 问题 叫做 是 递归 不 可 判定 的 (recursively undecidable)。 

如 果 一 个 无 限 循环 检查 程序 能 够 写 出 ,那么 它 表 定 可 以 用 于 自 检 。 此 时 我 们 可 以 制造 一 
个 程序 叫做 LOOP, LOOP 把 一 个 程序 P 作为 输入 并 使 P 自身 运行 。 WR P 自身 运行 时 出 现 
循环, 则 显示 短语 YES. WR P 自身 运行 时 终止 了 , 那么 自然 要 做 的 事 是 显示 NO 代替 这 
么 做 的 办 法 是 , 我 们 将 让 LOOP 进入 一 个 无 限 循环 - 

当 LOOP 将 自身 作为 输入 时 会 发 生 什么 呢 ? 要 么 LOO 停止 , 要 么 不 停止 。 问 题 在 于 ， 
这 两 种 可 能 性 均 导 致 耶 盾 ,与 短语 "这 句 话 是 一 句 谎言 "产生 的 矛盾 大 致 相同 。 

根据 我 们 的 定义 , 如 果 P(P) 终 止 , 则 LOOP(P) 进 入 一 个 无 限 循环 。 设 当 P = LOOP 
mt, P(P) 终 止 。 此 时 , 按照 LOOP 程序 . LOOP(P) 应 该 进入 一 个 无 限 循环 。 因此, 我 们 必须 
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让 LOOP(LOOP) 终 止 并 进入 一 个 无 限 循环 , 显然 这 是 不 可 能 的 。 另 一 方面 , 设 当 P = LOOP 
时 P(P) 进 入 一 个 无 限 循环 , 则 LOOP(P) 必 须 终止 ,而 我 们 得 到 同样 的 一 组 矛盾 。 因 此 , 我 
们 看 到 , 程序 LOOP 不 可 能 存在 。 

9.7.2 NP 类 

NP 类 在 难度 上 逊 于 不 可 判定 问题 的 类 。NP 代表 非 确定 型 多 项 式 时 间 (nondeterministic 
polynomial-time)。 确 定型 机 器 在 每 一 时 刻 都 在 执行 一 条 指令 。 根据 这 条 指令 ,机 器 再 去 执行 
某 条 接 下 来 的 指令 , 这 是 惟一 确定 的 。 而 一 台 非 确定 型 机 器 对 其 后 的 步骤 是 有 选择 的 。 它 可 
以 自由 进行 它 想 要 的 任意 的 选择 , 如 果 这 些 后 面 的 步骤 中 有 一 条 导致 问题 的 解 , 那么 它 将 总 
是 选择 这 个 正确 的 步骤 。 因 此 , 非 确定 型 机 器 具有 非常 好 的 猜测 (优化 ) 能 力 。 这 就 好 像 一 个 
奇怪 的 模型 , 因为 没有 人 能 够 构建 一 台 非 确定 型 计算 机 , 还 因为 这 台 机 器 是 对 标准 计算 机 的 
令 人 难以 置信 的 改进 (此 时 每 一 个 问题 都 变 成 易 解 的 了 )。 我 们 将 看 到 , 非 确定 性 是 非常 有 用 
的 理论 结构 。 此 外 , 非 确定 性 也 不 像 人 们 想像 的 那么 强大 。 例如 ,即使 使 用 非 确定 性 , 不 可 判 
定 问 题 仍然 还 是 不 可 判定 的 。 

检验 一 个 问题 是 否 属于 NP 的 简单 方法 是 用 “是 / 否 (yes/no) 问 题 "的 语言 描述 该 问题 。 如 
果 我 们 在 多 项 式 时 间 内 能 够 证 明 一 个 问题 的 任意 “是 "的 实例 是 正确 的 , 那么 该 问题 属于 NP 
类 。 我们 不 必 担心 “ 否 "的 实例 ,因为 程序 总 是 进行 正确 的 选择 。 因 此 ,对 于 哈密 尔 顿 峰 问题， 
一 个 “是 "的 实例 就 是 图 中 任意 一 个 包含 所 有 顶点 的 简单 的 回路 。 由 于 给 定 一 条 路 径 , 验证 它 
是 否 真 的 是 哈密 尔 顿 图 是 一 件 简单 的 事情 ,因此 哈密 尔 顿 轿 问 题 属 于 NP。 诸 如 “存在 长 度 大 
于 的 简单 路 径 吗 ? "这 样 的 适当 的 问题 也 可 能 容易 验证 从 而 属于 NP。 满足 这 条 性 质 的 任何 
路 径 均 可 容易 地 检验 。 

由 于 解 本 身 显然 提供 了 验证 方法 , 因此 , NP 类 包括 所 有 具有 多 项 式 时 间 解 的 问题 。 人们 
会 想到 , 既然 验证 一 个 答案 要 比 经 过 计算 提出 一 个 答案 容易 得 多 , 因此 在 NP 中 就 会 存在 不 
具有 多 项 式 时 间 解 法 的 问题 。 这 样 的 问题 至 今 没 有 发 现 , 于 是 , 非 确定 性 并 不 是 如 此 重要 的 
改进 是 完全 有 可 能 的 , 尽管 有 些 专家 很 可 能 不 这 么 认为 。 问 题 在 于 , 证明 指 数 下 界 是 一 项 极 
其 困难 的 工作 。 我 们 曾 用 来 证 明 排序 需要 CN logN) 次 比较 的 信息 理论 定 界 方法 似乎 还 不 
足以 完成 这 样 的 工作 , 因为 决策 树 都 还 不 足够 大 。 

还 要 注意 , 不 是 所 有 的 可 判定 问题 都 属于 NP. 考虑 确定 一 个 图 是 否 没有 哈密 尔 顿 图 的 
问题 。 证 明 一 个 图 有 哈密 尔 顿 图 是 相对 简单 的 一 件 事情 一 一 我 们 只 需 展 示 一 个 即 可 。 然而 却 
没有 人 知道 如 何以 多 项 式 时 间 证 明 一 个 图 没有 哈密 尔 顿 图 。 似 乎 人 们 只 能 枚 举 所 有 的 圈 并 且 
将 它们 一 个 一 个 地 验证 才 行 。 因 此 , 无 哈密 尔 顿 圈 的 问题 不 知 属 不 属于 NP。 

9.7.3 NP- 完全 问题 

在 已 知 属于 NP 的 所 有 问题 中 , 存在 一 个 子 集 , 叫做 NP- 完 全 (NP-complete) 问 题 , 它 包 
含 了 NP 中 最 难 的 问题 。NP- 完 全 问题 有 一 个 性 质 , 即 NP 中 的 任 一 问题 都 能 够 多 项 式 地 归 约 
成 NP- 完 全 问题 。 

一 个 问题 P, 可 以 归 约 成 问题 Py 如 下 : 设 有 一 个 映射 , 使 得 P 的 任何 实例 都 可 以 变换 
成 P, 的 一 个 实例 。 求解 P, 然后 将 答案 映射 回 原始 的 解答 。 作 为 一 个 例子 ， 考虑 把 数 以 十 
进 制 输入 到 一 只 计算 器 。 将 这 些 十 进 制 数 转化 成 二 进 制 数 , 所 有 的 计算 都 用 二 进 制 进行 。 然 
后 , 再 把 最 后 答案 转变 成 十 进 制 显示 。 对 于 可 多 项 式 地 归 约 成 P 的 Py, 与 变换 相 联 系 的 所 
有 的 工作 必然 以 多 项 式 时 间 完 成 。 
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NP- 完 全 问题 是 最 难 的 NP 问题 的 原因 在 于 , 一 个 NP- 完 全 的 问题 基本 上 可 以 用 作 NP 中 
任何 问题 的 子 程序 , 其 花费 只 不 过 是 多 项 式 的 开销 量 。 因 此, WREE NP 完全 问题 有 一 个 
多 项 式 时 间 解 , 那么 NP 中 的 每 一 个 问题 必然 都 有 一 个 多 项 式 时 间 的 解 。 这 使 得 NP 完全 问 
是 是 所 有 NP 问题 中 最 难 的 问题 。 

设 我 们 有 一 个 NP- 完 全 问题 P, 并 设 P; 已 知 属于 NP. 再 进一步 假设 Pi 多 项 式 地 归 约 
成 Ps, 使 得 我 们 可 以 通过 使 用 P» 求解 P 而 只 多 损耗 了 多 项 式 时 间 。 由 于 P 是 NP- 完 全 
的 ,NP 中 的 每 一 个 问题 都 可 多 项 式 地 归 约 成 Pi。 应 用 多 项 式 的 封闭 性 , 我 们 看 到 ,NP 中 的 
每 一 个 问题 均 可 多 项 式 地 归 约 成 Po: 我 们 把 问题 归 约 成 P, ,然后 再 把 Pi 归 约 成 P:。 因 此 ， 
P; 是 NP- 完 全 的 。 

作为 一 个 例子 , 设 我 们 已 经 知道 哈密 尔 顿 圈 问 题 是 NP- 完 全 问题 。 巡 回 售货员 ( traveling 
salesman problem) 问 题 如 下 。 

巡回 售货员 问题 : 

给 定 一 完全 图 G = (V, E). 它 的 边 的 值 以 及 整数 K, 是 否 存在 一 个 访问 所 有 项 点 并 且 

ŠK 的 简单 圈 ? 

这 个 问题 不 同 于 哈密 尔 顿 圈 问 题 , 因为 全 部 1V|1(|V1- 72 条 边 都 存在 而 且 图 是 赋 权 
图 。 该 问题 有 很 多 重要 的 应 用 。 例 如 , 印刷 电路 板 需要 穿 一 些 孔 使 得 芯片 、 电 阻 器 以 及 其 他 
的 电子 元 件 可 以 置 人 。 这 是 可 以 机 械 完成 的 。 穿 筷 是 快速 的 操作 ; 时 间 耗 费 在 给 穿孔 器 定位 
Eo 定位 所 需要 的 时 间 依 赖 于 从 孔 到 孔 间 行进 的 距离 。 由 于 我 们 希望 给 每 一 个 孔 位 穿孔 ( 然 
后 返回 到 开始 位 置 以 便 给 下 一 块 电路 板 穿孔 ), 并 将 钻头 移动 所 耗费 的 总 时 间 限制 到 最 小 ， 
因此 我 们 得 到 的 是 一 个 巡回 售货员 问题 。 

巡回 售货员 问题 是 NP- 完 全 的 。 容 易 看 到 ,其 解 可 以 用 多 项 式 时 间 检验 ， 当 然 它 属于 
NP, 为 了 证 明 它 是 NP- 完 全 的 , 我 们 可 多 项 式 地 将 哈 帘 尔 顿 图 问题 归 约 为 巡回 售货员 问题 。 
为 此 , 构造 一 个 新 的 图 G', GG 有 相同 的 顶点 。 对 于 G “的 每 一 条 边 (v，ww), MUR Cv, 
w)€ G, 那么 它 就 有 权 1, BM, 它 的 权 就 是 2。 我 们 选取 K = |V1。 见 图 9-78。 


D 
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图 9.78 ”哈密 尔 顿 图 问题 变换 成 巡回 售货员 问题 
容易 验证 ，G 有 一 个 哈密 尔 顿 圈 当 且 仅 当 G' 有 一 个 总 权 为 | V | 的 巡回 售货员 的 巡回 
路 线 。 
现在 有 许多 已 知 是 NP- 完 全 的 问题 。 为 了 证 明 某 个 新 问题 是 NP- 完 全 的 ， 必须 证 明 它 属 
于 NP, 然后 将 一 个 适当 的 NP- 完 全 问题 变换 到 该 问题 。 虽然 到 巡回 售货员 问题 的 变换 是 相当 
简单 的 , 但 是 , 大 部 分 变换 实际 上 却 是 相当 复杂 的 , 需要 某 些 复杂 的 构造 一 般 说 来 , 在 考虑 
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了 多 个 不 同 的 NP- 完 全 问题 之 后 才 考 虑 实际 提供 归 约 的 问题 。 由 于 我 们 只 关注 一 般 的 想法 ， 
因此 也 就 不 再 讨论 更 多 的 变换 ; 有 兴趣 的 读者 可 以 查阅 本 章 后 面 的 参考 文献 。 

细心 的 读者 可 能 想 知道 第 一 个 NP- 完 全 问题 是 如 何 具体 地 被 证 明 是 NP- 完 全 的 。 由 于 证 
明 一 个 问题 是 NP- 完 全 的 ,需要 从 另外 一 个 NP- 完 全 问题 变换 到 它 , 因此 必然 存在 某 个 NP- 
完全 问题 , 对 于 这 个 问题 上 述 思路 行 不 通 。 第 一 个 被 证 明 是 NP- 完 全 的 问题 是 可 满足 性 (sat- 
isfiability) 问 题 。 这 个 可 满足 性 问题 把 一 个 布尔 表达 式 作为 输入 并 提问 是 否 该 表达 式 对 式 中 各 
变量 的 一 次 赋值 取 值 1。 

可 满足 性 当然 属于 NP, 因为 容易 计算 一 个 布尔 表达 式 的 值 并 检查 结果 是 否 为 真 (true)。 
在 1971 年 , Cook 通过 直接 证 明 NP 中 的 所 有 问题 都 可 以 变换 成 可 满足 性 问题 而 证 明了 可 满 
足 性 问题 是 NP- 完 全 的 。 为 此 , 他 用 到 了 对 NP 中 每 一 个 问题 都 已 知 的 事实 : NP 中 的 每 一 个 
问题 都 可 以 用 一 台 非 确定 型 计算 机 在 多 项 式 时 间 内 求解 . 计算 机 的 一 个 形式 化 的 模型 称 作 图 
灵机 (Turing machine)。Cook 指出 这 台 机 器 的 动作 如 何 能 够 用 一 个 极其 复杂 但 仍然 是 多 项 式 
的 元 长 的 布尔 公式 来 模拟 。 该 布尔 公式 为 真 ， 当 且 仅 当 由 图 灵机 运行 的 程序 对 其 输入 得 到 一 
个 “是 "的 管 案 。 

一 旦 可 满足 性 被 证 明 是 NP- 完 全 的 , 则 一 大 批 新 的 NP- 完 全 问题 , 包括 某 些 最 经 典 的 问 
题 , 也 都 被 证 明 是 NP- 完 全 的 。 

除 可 满足 性 问题 外 , 我 们 已 经 考查 过 的 哈密 尔 顿 回路 问题 、 巡 回 售货员 问题 、 最 长 路 径 
问题 都 是 NP- 完 全 问题 , 此 外 , 还 有 一 些 我 们 尚未 讨论 的 问题 如 装 箱 (bin packing) 问 题 、 背包 
(knapsack) 问 题 、 图 的 着 色 (graph coloring) 问 题 以 及 团 (clique) 的 问题 都 是 著名 的 NP- 完 全 问 
题 。NP- 完 全 问题 相当 广泛 ,包括 来 自 操作 系统 (调度 和 安全 )、 数 据 库 系统 、 运 筹 学 、 远 辑 
学 、 特 别 是 图 论 等 不 同 的 领域 的 问题 。 

总 结 

在 这 一 章 , 我 们 已 经 看 到 图 如 何 用 来 给 出 许多 实际 生活 问题 的 模型 。 实 际 出 现 的 图 常常 
是 非常 稀疏 的 , 因此, 注意 用 于 实现 这 些 图 的 数据 结构 很 重要 。 

我 们 还 看 到 一 类 问题 , 它们 似乎 没有 有 效 的 解法 。 在 第 10 章 将 讨论 处 理 这 些 问 题 的 某 些 
方法 。 
练习 

9.1 找 出 图 9-79 的 一 个 拓扑 排序 。 








9-79 
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9.2 如果 用 一 个 栈 代替 9.1 节 中 拓扑 排序 算法 的 队列 , 是 否 得 到 不 同 的 排序 ? 为 什么 一 
种 数据 结构 会 给 出 “更 好 "的 答案 ? 

9.3 编写 一 个 程序 执行 对 一 个 图 的 拓扑 排序 。 

9.4 ”使 用 标准 的 二 重 循环 , 一 个 邻接 矩阵 仅 初始 化 就 需要 OUVI?) 试 提出 一 种 方法 
将 一 个 图 存储 在 一 个 邻接 矩阵 中 (使 得 测试 一 条 边 是 否 存在 花费 O(1)) 但 避免 二 次 
的 运行 时 间 。 

9.5 a. 找 出 图 9-80 中 图 的 A 点 到 所 有 其 他 项 点 的 最 短路 径 。 
b. 找 出 图 9-80 中 图 的 B 点 到 所 有 其 他 项 点 的 最 短 无 权 路 径 。 








图 9-80 


9.6 HH d- 堆 实现 时 (6.5 节 ), Dijkstra 算法 最 坏 情 形 的 运行 时 间 是 多 少 ? 
9.7 a. 给 出 在 有 一 条 负 边 但 无 负 值 圈 时 ,Dijkstra 算法 得 到 错误 答案 的 例子 。 
* b. 证 明 , 如 果 存 在 负 权 边 但 无 负 值 图 , 则 9.3.3 段 中 提出 的 赋 权 最 短路 径 算法 是 
成 立 的 , 并 证 明 该 算法 的 运行 时 间 为 O(|E1*|V | )。 
69.8 设 一 个 图 的 所 有 边 的 权 都 是 在 1 和 | 下 | 之 间 的 整数 。Dijkstra 算法 可 以 多 快 实现 ? 
9.9 写 出 一 个 程序 来 求解 单 发 点 最 短路 径 问题 。 
9.10. a. 解释 如 何 修改 Dijkstra 算法 以 得 到 从 v 到 ze 的 不 同 的 最 小 路 径 的 个 数 的 计数 。 
b. 解释 如 何 修改 Dijkstra 算法 使 得 如 果 存 在 多 于 一 条 从 o 到 的 最 小 路 径 , 那 557 
么 具有 最 少 边 数 的 路 径 将 被 选中 。 加 
9.11 找 出 图 9-79 中 的 网 络 的 最 大 流 。 
9.12 BG = (V, EE) 是 一 棵 树 , s 是 它 的 根 , 并 且 添加 一 个 顶点 c 以 及 从 G 中 所 有 树 
叶 到 1 的 无 穷 容量 的 边 。 给 出 一 个 线性 时 间 算 法 以 找 出 从 * 到 1 的 最 大 流 。 
9.13 一 个 二 分 图 G = (V, E) 是 把 V 划分 成 两 个 子 集 Vi 和 V2 并 且 其 边 的 两 个 顶点 
都 不 在 同一 个 子 集中 的 图 。 
a. 给 出 一 个 线性 算法 以 确定 一 个 图 是 否 是 二 分 图 。 
b. 二 分 匹配 问题 是 找 出 E 的 最 大 子 集 E “使 得 没有 顶点 含 在 多 于 一 条 的 边 中 。 图 
9.81 中 所 示 的 是 四 条 边 的 一 个 匹配 (由 虚线 表示 )。 存在 一 个 五 条 边 的 匹配 , E 
是 最 大 的 匹配 。 
指出 二 分 匹配 问题 如 何 能 够 用 于 解决 下 列 问题 : 我 们 有 一 组 教师 、 一 组 课程 ， 
以 及 每 位 教师 有 资格 教授 的 课程 表 。 如 果 没 有 教师 需要 教授 多 于 一 门 的 课程 ， 
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而 且 只 有 一 位 教师 可 以 教授 一 门 给 定 的 课程 , 那么 可 以 提供 开设 的 课程 的 最 
多 门 数 是 多 少 ? 

c. 证 明 网 络 流 问题 可 以 用 来 解决 二 分 匹配 问题 。 

d. 你 对 问题 (b) 的 解法 的 时 间 复杂 度 如 何 ? 





图 9-81 一 个 二 分 图 


9.14 ”给 出 一 个 算法 找 出 容许 最 大 流通 过 的 增长 通路 。 
9.15 a. 使 用 Prim 和 Kruskal 两 种 算法 求 出 图 9-82 中 图 的 最 小 生成 树 。 
b. 这 棵 最 小 生成 树 是 惟一 的 吗 ? 为 什么 ? 








图 9-82 


9.16. ”如果 存在 一 些 负 的 边 权 , 那么 Prim 算法 或 Kruskal 算法 还 能 行 得 通 吗 ? 

9.17 证 明 V 个 顶点 的 图 可 以 有 V" 棵 最 小 生成 树 。 

9.18 编写 一 个 程序 实现 Kruskal 算法 。 

9.19 ”如 果 一 个 图 的 所 有 边 的 权 都 在 1 和 |E| 之 间 , 那么 能 有 多 快 算出 最 小 生成 树 ? 
9.20 给 出 一 个 算法 求解 最 大 生成 树 。 这 比 求解 最 小 生成 树 更 难 吗 ? 

9.21 求 出 图 9-83 中 图 的 所 有 割 点 。 指出 深度 优先 生成 树 和 每 个 顶点 的 Nm 和 Low 的 值 。 
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9.22 证 明 寻 找 割 点 的 算法 的 正确 性 。 
9.23 a. 给 出 一 种 算法 求 出 最 小 的 边 数 , 这 些 边 从 一 个 无 向 图 中 删除 后 应 使 所 得 的 图 是 
KAA 
* b. 证 明 这 个 问题 对 有 向 图 是 NP- 完 全 的 。 
9.24 证 明 : 在 一 个 有 向 图 的 深度 优先 生成 森林 中 所 有 的 交叉 边 都 是 从 右 到 左 的 。 
9.25 ”给 出 一 个 算法 以 决定 在 一 个 有 向 图 的 深度 优先 生成 森林 中 的 一 条 边 (v，w') 是 否 
是 树 , 背 向 边 , 交叉 边 或 前 向 边 - 
9.26 找 出 图 9-84 的 图 中 的 强 连通 分 支 。 


9.27 编写 一 个 程序 以 找 出 一 个 有 向 图 的 强 连通 分 支 。 
* 9.28 ”给 出 一 个 算法 只 用 一 次 深度 优先 搜索 找 出 强 连通 分 支 来 。 使 用 类 似 于 双 连 通 性 算 

法 的 算法 。 

9.29 一 个 图 G 的 双 连 通 分 支 (biconnected component) 是 把 边 分 成 一 些 集 合 的 划分 , 使 
得 每 个 边 集 所 形成 的 图 是 双 连 通 的 。 修 改 图 9-67 中 的 算法 ,使 能 找 出 双 连 通 分 支 
而 不 是 割 点 。 

9.30 ， 设 我 们 对 一 个 无 向 图 进行 广度 优先 搜索 (breadth-first search) JH sy — BU IE (LAG 
生成 树 (breadth-first spanning tree)。 证 明 该 树 所 有 的 边 要 么 是 树 边 要 么 是 交 
X3). 

9.31. 给 出 一 个 算法 在 一 无 向 (连通 ) 图 中 找 出 一 条 路 径 使 其 在 每 个 方向 上 恰好 通过 每 条 
边 一 次 。 

9.32 a. 编写 一 个 程序 以 找 出 一 个 图 中 的 一 条 欧 拉 回 路 (如 果 存 在 的 话 )。 
b. 编写 一 个 程序 以 找 出 一 个 图 中 的 一 条 欧 拉 环 游 (如 果 存在 的 话 )。 

9.33 ”有 向 图 中 的 欧 拉 回 路 是 一 个 圈 , 该 圈 中 的 每 条 边 恰好 被 访问 一 次 。 

x a. 证 明 : 有 向 图 有 欧 拉 回 路 当量 仅 当 它 是 强 连通 的 并 且 每 个 项 点 的 人 度 等 于 出 
度 。 
^ b. 给 出 一 个 算法 以 在 存在 欧 拉 回 路 的 有 向 图 中 找 出 一 条 欧 拉 回路 。 

9.34 a. 考虑 欧 拉 回 路 问题 的 下 列 解法 : 假设 一 个 图 是 双 连 通 的 。 执行 一 次 深度 优先 搜 
dk, 只 在 万 不 得 已 的 时 候 使 用 背 向 边 。 如 果 图 不 是 双 连 通 的 ， 则 对 双 连 通 分 支 
递归 地 应 用 该 算法 。 这 个 算法 行 得 通 吗 ? 

b. 设 当 用 到 背 向 边 时 我 们 取 用 连接 到 最 近 祖 先 节点 的 背 向 边 ， 那么 该 算法 是 否 
行 得 通 ? 
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9.35 


BOE 





平面 图 (planar graph) 是 一 个 可 以 画 在 一 个 平面 上 而 其 任何 两 条 边 都 不 相交 的 图 。 
+a. 证 明 图 9-85 中 的 两 个 图 都 不 是 平面 图 。 
b. 证 明 , 在 平面 图 中 必然 存在 某 个 顶点 与 最 多 不 超过 五 个 项 点 相连 。 


* c. 证 明 在 平面 图 中 | E|<3' V] -6- 


9.36 


«9.37 


9.38 


9.40 


9.41 





图 9-85 


多 重 图 (multigraph) 是 在 其 内 的 顶点 对 之 间 可 以 有 多 重 边 (multiple edge) 的 图 - 本 

章 中 哪些 算法 对 于 多 重 图 不 用 修改 就 能 正确 运行 ? 对 其 余 的 算法 需要 进行 哪些 修 

[uu 

AG = (V, EE) 是 一 个 无 向 图 使 用 深度 优先 搜索 设计 一 个 线性 算法 ,把 G 的 每 

条 边 转换 成 有 向 边 使 得 所 得 到 的 图 是 强 连通 的 , 或 者 确定 这 是 不 可 能 的 。 

给 你 一 把 棍 共 N 根 , 它们 以 某 种 结构 相互 蛋 压 平 放 。 每 根 棍 由 它 的 两 端点 确定 ; 

每 个 端点 是 由 zx、y 和 < 坐标 确定 的 有 序 三 元 组 ; 没有 棍 垂 直 摆 放 。 一 根 棍 仅 当 

.其 上 没有 要 放置 时 可 以 取 走 。 

a. 解释 如 何 编写 一 个 例 程 接收 两 根 棍 a 和 4b, 并 报告 a ATED End. b 下 面 ， 
或 是 与 b 无 关 。( 本 问 与 图 论 毫 无 关系 ) 

b. 给 出 一 个 算法 确定 是 否 能 够 取 走 所 有 的 棍 , 如 果 能 , 那么 提供 完成 这 项 工作 的 
HLA. 

团 问 题 (clique problem) 可 以 叙述 如 下 : 给 定 无 向 图 G = (V, 巨 ) 和 一 个 整数 K， 

G 包含 一 个 最 少 有 K 个 项 点 的 完全 子 图 吗 ? 

35,8 A AMM (vertex cover problem) 可 以 叙述 如 下 : 给 定 无 向 图 G = (V. 
E)R—T CK, G 是 杏 包含 一 个 子 集 VCYV 使 得 |V“| SK 并 且 G 的 每 条 边 
都 有 一 个 顶点 在 V P? 证 明 团 问 题 可 以 多 项 式 地 归 约 成 顶点 获 羡 问题 。 

设 哈密 尔 顿 图 问题 对 无 向 图 是 NP- 完 全 的 。 

a. 证 明 哈 密 尔 顿 图 问题 对 有 向 图 是 NP- 完 全 的 。 

b. 证 明 简单 无 权 最 长 路 径 问题 对 有 向 图 是 NP- 完 全 的 。 

棒球 卡 收藏 家 问题 (baseball card collector problem) 如 下 : 给 定 卡片 包 Pi, P2, 0 
Py 以 及 一 个 整数 K， 其 中 每 个 包 包含 年 度 棒球 卡 的 一 个 子 集 , 问 是 否 可 能 通过 
选择 三 K 个 包 而 搜集 到 所 有 的 棒球 卡 ? 证 明 棒球 卡 收藏 家 问题 是 NP- 完 全 的 。 
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981029 ”算法 设计 技巧 


迄今 我 们 已 经 涉及 到 一 些 算法 的 有 效 的 实现 。 我 们 看 到 ， 当 一 个 算法 给 定时 , 实际 的 数 
据 结构 无 须 指定 。 为 使 运行 时 间 尽 可 能 地 少 , 需要 由 编程 人 员 来 选择 适当 的 数据 结构 。 

本 章 我 们 将 把 注意 力 从 算法 的 实现 转向 算法 的 设计 。 到 现在 为 止 我 们 已 经 看 到 的 大 部 分 
算法 都 是 直接 的 和 简单 的 。 第 9 章 包 含 的 一 些 算法 要 深奥 得 多 , 有 些 需要 (在 有 些 情形 下 很 长 
的 ) 论 证 以 证 明 它 们 确实 是 正确 的 。 在 这 一 章 , 我 们 将 集中 讨论 用 于 求解 问题 的 五 种 通常 类 
型 的 算法 。 对 于 许多 问题 ,很 可 能 这 些 方法 中 至 少 有 一 种 方法 是 可 以 解决 问题 的 。 特 别 地 ， 
对 于 每 种 类 型 的 算法 我 们 将 


* 看 到 一 般 的 处 理 方法 。 
。 考 查 几 个 例子 (本 章 末尾 的 练习 题 提供 了 更 多 的 例子 )。 
， 在 适当 的 地 方 概括 地 讨论 时 间 和 空间 复杂 性 。 


10.1 ARAE 


FRADE BEAGLE BE IE (greedy algorithm). E98 9 章 我 们 已 经 看 
到 三 个 贪 禁 算法 : Dijkstra 算法 、Prim 算法 和 Kruskal 算法 。 贪 禁 算法 分 阶段 地 工作 。 在 每 一 
个 阶段 , 可 以 认为 所 作 决 定 是 好 的 ,而 不 考虑 将 来 的 后 果 。 一 般 地 说 , 这 意味 着 选择 的 是 某 
个 局 部 的 最 优 。 这 种 “眼下 能 够 拿 到 的 就 拿 ” 的 策略 即 是 这 类 算法 名 称 的 来 源 。 当 算法 终止 
时 , 我 们 希望 局 部 最 优 就 是 全 局 最 优 。 如 果 是 这 样 的 话 , 那么 算法 就 是 正确 的 ;否则 ,算法 得 
到 的 是 一 个 次 最 优 解 (suboptimal solution)。 如 果 不 要 求 绝对 最 佳 答案 , 那么 有 时 用 简单 的 仿 
禁 算 法 生成 近似 答案 ,而 不 是 使 用 一 般 说 来 产生 准确 答案 所 需要 的 复杂 算法 。 

有 几 个 现实 的 全 禁 算法 的 例子 。 最 明显 的 是 找 零 钱 问题 。 为 了 使 用 美国 货币 找 零钱 , 我 
们 重复 地 配 发 最 大 额 货币 。 于 是 , 为 了 找 出 十 七 美元 六 十 一 美 分 的 零钱 , 我 们 拿 出 一 张 十 美 
Jub. 一 张 五 美元 钞 , 两 张 一 美 元 钞 , 两 个 二 十 五 分 币 , 一 个 十 分 币 ， 以 及 一 个 分 币 。 这 么 
做 , 我 们 保证 使 用 最 少 的 钞票 和 硬币 。 这 个 算法 不 是 对 所 有 的 货币 系统 都 行 得 通 , 但 幸运 的 
是 , 我 们 可 以 证 明 它 对 美国 货币 系统 是 正确 的 。 事 实 上 ,即使 允许 使 用 两 美元 钞 和 五 十 美 分 
币 该 算法 仍然 是 可 行 的 。 

交通 问题 有 一 个 例子 , 在 这 个 例子 中 , 进行 局 部 最 优选 择 不 总 是 行 得 通 的 。 例如 ,在 到 
阿 密 的 某 些 交通 高 峰 期 间 , 即使 一 些 主要 马路 看 起 来 空荡荡 的 ,你 最 好 还 是 把 车 停 在 这 些 街 
道 以 外 ,因为 交通 将 会 沿 着 马路 阻塞 一 英里 长 ,你 也 就 被 堵 在 那里 动弹 不 得 。 有 时 其 至 更 精 ， 
为 了 回避 所 有 的 交通 隘口 ,最 好 是 朝 着 你 的 目的 地 相反 的 方向 临时 绕道 行驶 。 

本 节 其 余部 分 , 我 们 将 考查 几 个 使 用 贪 禁 算法 的 应 用 。 第 一 个 应 用 是 简单 的 调度 问题 。 
实际 上 , 所 有 的 调度 问题 或 者 是 NP- 完 全 的 (或 类 似 的 难度 )， 或 者 是 贪 禁 算 法 可 解 的 。 第 二 
个 应 用 处 理 文件 压缩 , 它 是 计算 机 科学 最 早 的 成 果 之 一 。 最 后 , 我 们 将 介绍 一 个 贪 束 近似 算 
法 的 例子 。 

10.1.1 一 个 简单 的 调度 问题 
今 有 作业 jo das oes ive 已 知 对 应 的 运行 时 间 分 别 为 tis 12, …… iN 而 处 理 器 只 有 





264 S 103* 





一 个 。 为 了 把 作业 平均 完成 的 时 间 最 小 化 , 调度 这 些 作业 最 好 的 方式 是 什么 ?整个 这 一 节 我 
们 将 假设 使 用 非 预 占 调度 (nonpreemprive scheduling): 一 旦 开始 一 个 作业 ,就 必须 把 该 作业 
运行 到 完成 。 

作为 一 个 例子 , 设 我 们 有 四 个 作业 和 相关 的 运行 时 间 , 如 图 10-1 Bras. 一 个 可 能 的 调度 
在 图 10-2 中 给 出 。 因 为 六 用 15 个 时 间 单位 , ja 到 23 完成 , j 到 26 而 js 到 36 完成 , 所 以 
平均 完成 时 间 为 25. 一 个 更 好 的 调度 由 图 10-3 表示 , 它 产生 的 平均 完成 时 间 为 17.75。 
| 作业 | 时 间 
| h is | f | 1 
t i| | h h fal ^ | 
Lees 0 5 6 E 


图 (0-1 作业 和 时 间 图 10-2 1 号 调度 


























nl on "E 

















图 10-3 2 号 调度 (最 优 ) 


图 10-3 给 出 的 调度 是 按照 最 短 的 作业 最 先进 行 来 安排 的 。 我 们 可 以 证 明 这 将 总 会 产生 

一 个 最 优 的 调度 。 令 调度 表 中 的 作业 是 jy, jie Jigs 第 一 个 作业 以 时 间 1, SOR ME 

业 在 t, + 后 完成 而 第 三 个 作业 在 c za + 二 后 完成 。 由 此 我 们 看 到 ,该 调度 总 的 代价 C 
为 

c= DN- k* Dt (10.1) 


= (N+) Sa, - Ens (10.2) 
E d 


注意 , 在 方程 (10.2) 中 第 一 个 求 和 与 作业 的 排序 无 关 , 因此 只 有 第 二 个 求 和 影响 到 总 开 
销 。 设 在 一 个 排序 中 存在 x >y 使 得 ti <t o Iit, HARA, XR j; RU 第 二 个 和 增加 ， 
从 而 降低 了 总 的 代价 。 因此， 所 用 时 间 不 是 单调 非 减 的 任何 的 作业 调度 必然 是 次 最 优 的 。 剩 

下 的 只 有 那些 其 作业 按照 最 小 运行 时 间 最 先 安排 的 调度 是 所 有 调度 方案 中 最 优 的 。 

这 个 结果 指出 为 什么 操作 系统 调度 程序 一 一 般 把 优先 权 赋予 那些 更 短 的 作业 的 原因 。 
多 处 理 器 的 情况 

我 们 可 以 把 这 个 问题 扩展 到 多 个 处 理 器 的 情形 。 我 们 还 是 有 作业 广 ,j2,…,jx， 对 应 的 运 
行 时 间 分 别 为 1,t2,…,tv， 另外 处 理 器 的 个 数 为 P。 不 失 一 般 性 , 我 们 将 假设 作业 是 有 序 
的 ,最 短 的 最 先 运行 。 作 为 一 个 例子 , 设 已 =3. 而 作业 则 如 图 10-4 所 示 。 

图 10-5 显示 一 个 最 优 的 安排 , 它 把 平均 完成 时 间 优化 到 最 小 。 作 业 ji ja 和 jy 在 处 理 
器 1 上 运行 。 处 理 器 2 处 理 作业 jo, js 和 js, 而 处 理 器 3 运行 其 余 的 作业 。 总 的 完成 时 间 为 


165, 平均 是 5 = 18.33. 
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作业 | 时 间 

T A js h 

f s 

^h e| | 

DI 10 h | Js de 

h n" | 

» | 1 T 

i 15 | a LI 

Hep "mx 
LM ELI 0 3 56 B16 2 28 u 04 
图 10-4 作业 和 时 间 图 10-5 多 处 理 器 情形 的 一 个 最 优 解 


解决 多 处 理 器 情形 的 算法 是 按 顺 序 开始 作业 ,处 理 器 之 间 轮 换 分 配 作 业 。 不 难 证 明 没有 
哪个 其 他 的 顺序 能 够 做 得 更 好 , 虽然 处 理 器 个 数 已 能 够 整除 作业 数 N 时 存在 许多 最 优 的 顺 
序 。 对 于 每 一 个 0<i<N/P, 把 从 jip+1 直 到 jc ,wp 的 每 一 个 作业 放 到 不 同 的 处 理 器 上 , 我 
们 可 以 得 到 这 样 的 最 优 顺序 。 在 我 们 的 例子 中 , 图 10-6 指出 了 第 二 个 最 优 解 。 





























0 3 56 14 15 20 30 34 38 
图 10-6 “多 处 理 器 情形 的 第 二 个 最 优 解 


即使 不 恰好 整除 N, 哪怕 所 有 的 作业 时 间 是 互 异 的 , 也 还 是 有 许多 最 优 解 。 我 们 把 进 
一 步 的 考查 留 作 练习 。 
将 最 后 完成 时 间 最 小 化 

在 本 小 节 最 后 , 考虑 一 个 非常 类 似 的 问题 。 假 设 我 们 只 关注 最 后 的 作业 的 结束 时 间 。 在 
上 面 的 两 个 例子 中 , 它们 的 完成 时 间 分 别 是 40 和 38。 图 10-7 指出 最 小 的 最 后 完成 时 间 是 
34, 而 这 个 结果 显然 不 能 再 改进 了 ， 因为 每 一 个 处 理 器 都 在 一 直 忙 着 。 








a js | ja 





js js 
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n| ^ 
Ii 
$5 8. 14 16 19 3 


图 10-7 将 最 后 完成 时 间 最 小 化 
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如 果 同 一 个 用 户 拥有 所 有 这 些 作业 , 那么 该 调度 是 更 可 取 的 调度 方法 。 虽然 这 些 问 题 非 常 相 
似 , 但 是 这 个 新 问题 实际 上 是 NP- 完 全 的 ; 它 恰 是 背包 问题 或 装 箱 问题 的 另 一 种 表述 方式 , 我 
们 后 面 在 本 节 还 将 遇 到 它 。 因 此 , 将 最 后 完成 时 间 最 小 化 显然 要 比 把 平均 完成 时 间 最 小 化 困 
难得 多 。 
10.1.2 Huffman 编码 

在 这 一 节 , 我 们 考虑 贪 禁 算 法 的 第 二 个 应 用 , 称 为 文件 压缩 (file compression) 。 




















标准 的 ASCII 字符 集 由 大 约 100 个 “可 打印 "字符 Spe ae mee) 
组 成 。 为 了 把 这 些 字符 区 分 开 来 , 需要 log 1001=7 个 | z ee 
比特 (bit 一 一 二 进 制 位 )。 但 7 个 比特 可 以 表示 128 个 字 $C o. ise M 
符 , 因此 ASCI 字符 还 可 以 再 加 上 一 些 其 他 的 “ 非 打印 ” son a , 
字符 ,我 们 加 上 第 8 个 比特 位 作为 奇偶 校 验 位 。 不 过 , 重 | we wo o >» 
要 的 问题 在 于 , 如 果 字 符 集 的 大 小 是 C, 那么 在 标准 的 “| ee | 
编码 中 就 需要 [log C1 个 比特 。 AR PBÓ€ 
设 我 们 有 一 个 文件 , 它 只 包含 字符 ace. iss +， 图 10.8 使 用 个 标准 编码 方案 


加 上 一 些 空格 和 newline (换行 )。 进一步 设 该 文件 有 10 
个 a、15 个 e、12 个 i、3 个 s、4 个 t、13 个 空格 以 及 一 个 nereline。 如 图 10-8 中 的 表 所 示 , 这 
个 文件 需要 174 个 比特 来 表示 , 因为 有 58 个 字符 , 而 每 个 字符 需要 3 个 比特 。 

在 现实 当中 , 文件 可 能 是 相当 大 的 。 许 多 非常 大 的 文件 是 某 个 程序 的 输出 数据 ,而 在 使 
用 频率 最 大 和 最 小 的 字符 之 间 通常 存在 很 大 的 差别 。 例 如 ,许多 巨大 的 文件 都 含有 很 多 很 多 
的 数字 、 空 格 和 newline, 但 是 9 和 z 却 很 少 。 如 果 我 们 在 慢 速 的 电话 线 上 传输 这 些 信息 , 那 
么 我 们 就 会 希望 减少 文件 的 大 小 。 还 有 ,由 于 实际 上 每 一 台 负 器 上 的 磁盘 空间 都 是 非常 珍贵 
的 , 因此 人 们 就 会 想到 是 否 有 可 能 提供 一 种 更 好 的 编码 降低 总 的 所 需 比 特 数 。 

答案 是 肯定 的 ,一 种 简单 的 策略 可 以 使 一 般 的 大 型 文件 节省 25% ,而 使 许多 大 型 的 数据 
文件 节省 多 达 50% ~ 60% 。 这 种 一 般 的 策略 就 是 让 代码 的 长 度 从 字符 到 字符 是 变化 不 等 的 ， 
同时 保证 经 常 出 现 的 字符 其 代码 短 。 注 意 , 如 果 所 有 的 字符 都 以 相同 的 频率 出 现 , 那么 要 节 
省 空间 是 不 可 能 的 。 

代表 字母 的 二 进 制 代 码 可 以 用 二 叉 树 来 表示 , 如 图 10-9 所 示 。 








图 10-9 树 中 原始 代码 的 表示 法 


图 10-9 中 的 树 只 在 树叶 上 有 数据 。 每 个 字符 通过 从 根 节点 开始 用 0 指示 左 分 支 用 1 指 

O 示 右 分 支 而 以 记录 路 径 的 方法 表示 出 来 - 例如 , s 通过 从 根 向 左 走 ， 然后 向 右 , 最 后 再 向 右 而 

四 达到 ,于 是 它 被 编码 成 011。 这 种 数据 结构 有 时 叫做 rie 树 。 如 果 字 符 c; 在 深度 d; 处 并 且 出 
S) gf 次, 那么 该 字符 代码 的 值 (cost) 就 等 于 沁 dif;。 

可 以 利用 newline 是 仅 有 的 一 个 儿子 而 得 到 一 种 比 图 10-9 给 出 的 代码 更 好 的 代码 - 通 
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过 把 newline 符号 放 到 它 的 更 高 一 层 的 父 节点 上 , 我 们 得 到 图 10-10 中 新 的 树 。 这 棵 新 树 的 
值 是 173, 但 该 值 仍然 远 没 有 达到 最 优 。 








图 10-10 稍微 好 一 些 的 树 


注意 , F8 10-10 中 的 树 是 一 棵 满 树 (full ree): 所 有 的 节点 或 者 是 树叶 , 或 者 有 两 个 儿子 。 
一 种 最 优 的 编码 将 总 具有 这 个 性 质 , 否则 正如 我 们 已 经 看 到 的 , 具有 一 个 儿子 的 节点 可 以 向 
上 移动 一 层 。 

如 果 字 符 都 只 放 在 树叶 上 , 那么 任何 比特 序列 总 能 够 被 毫 无 歧义 地 译 码 。 例 如 ,编码 串 
是 0100111100010110001000111。 0 不 是 字符 代码 , 01 也 不 是 字符 代码 , 但 010 是 i, 于 是 第 
一 个 字符 是 i。 然 后 跟着 的 是 011, 它 是 字符 s。 其 后 的 11 是 newline。 剩 下 的 代码 分 别 是 a， 
空格 , t i, eM newline, 因此 , 这 些 字符 代码 的 长 度 是 否 不 同 并 不 要 紧 ， 只 要 没有 字符 代码 
是 别 的 字符 代码 的 前 缀 即 可 。 这样 一 种 编码 叫做 前 缓 码 (character code)。 相 反 ， 如 果 一 个 字 
符 放 在 非 树叶 节点 上 ， 那 就 不 再 能 够 保证 译 码 没有 二 义 性 。 

综 上 所 述 , 我 们 看 到 , 基本 的 问题 在 于 找到 (如 上 定义 的 ) 总 价值 最 小 的 满 二 又 树 ， 其 中 
所 有 的 字符 都 位 于 树叶 上 。 图 10-11 中 的 树 显示 该 例 简单 字母 表 的 最 优 树 。 从 图 10-12 可 以 
看 到 , 这 种 编码 只 用 了 146 个 比特 。 






































[vm ne me oe 
a 001 10 30 
e 01 15 30 
i 10 12 24 
s 00000 3 15 
6001 4 16 
space n n 26 
newline 00001 1 5 
| 总 和 146 
图 10-11 RNR 图 10-12 最 优 前 组 码 
注意 , 存在 许多 最 优 的 编码 。 这 些 编码 可 以 通过 交换 编码 树 中 的 儿子 节点 得 到 。 此 时 ， 


主要 的 未 解决 的 问题 是 如 何 构造 编码 树 。1952 年 Huffman 给 出 了 一 个 算法 。 因 此, 这 种 编码 
系统 通常 称 为 哈 夫 曼 编码 (Hufftman code)。 
哈 夫 曼 算法 

本 小 节 我 们 将 假设 字符 的 个 数 为 C。 险 夫 受 算法 (Huffman's algorithm) 可 以 描述 如 下 : 
算法 对 一 个 由 树 组 成 的 森林 进行 。 一 棵 树 的 权 等 于 它 的 树叶 的 频率 的 和 。 任意 选取 最 小 权 的 
BR Ti M To, 并 任意 形成 以 T, MT. 为 子 树 的 新 树 ， 将 这 样 的 过 程 进行 C 一 1 次。 在 算 
法 的 开始 , 存在 C 棵 单 节点 树 一 一 每 个 字符 一 棵 。 在 算法 结束 时 得 到 一 棵 树 ， 这 棵 树 就 是 最 
优 哈 夫 曼 编码 树 - 
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我 们 通过 一 个 具体 例子 来 搞 清算 法 的 操作 。 图 10-13 表示 的 是 初始 的 森林 ;每 棵 树 的 权 
在 根 处 以 小 号 数字 标 出 。 将 两 棵 权 最 低 的 树 合并 到 一 起 , 由 此 建立 了 图 10- 14 中 的 森林 - 我 
们 将 新 的 根 命名 为 T1, 这 样 可 以 确切 无 误 地 表述 进一步 的 合并 。 图 中 我 们 令 s 是 左 儿 子 , 这 
E, 令 其 为 左 儿 子 还 是 右 儿 子 是 任意 的 ;注意 可 以 使 用 哈 夫 曼 算法 描述 中 两 个 任意 性 。 新 树 
的 总 的 权 正 是 那些 老 树 的 权 的 和 ,当然 也 就 很 容易 计算 - 由 于 建立 新 树 只 需 得 出 一 个 新 节 
点 , 建立 左 指针 和 右 指针 并 把 权 记 录 下 来 , 因此 创建 新 树 很 简单 。 
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图 10-13 哈 夫 曼 算 法 的 初始 状态 


ay 
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图 10-14 第 一 次 合并 后 的 哈 夫 曼 算法 


现在 有 六 棵 树 , 我 们 再 选取 两 棵 权 最 小 的 树 。 这 两 棵 树 是 T1 和 +， 然后 将 它们 合并 成 一 
棵 新 树 , 树 根 在 T2, BUE 8, 见 图 10-15, 第 三 步 将 T2 和 a 合并 建立 T3, 其 权 为 10+8= 18。 
图 10- 16 显示 这 次 操作 的 结果 。 
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图 10-15 PARAM KA 
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图 10-16 第 三 次 合并 后 的 哈 夫 曼 算法 


在 第 三 次 合并 完成 后 , MERMER i 和 空格 的 两 个 单 节点 树 。 图 10-17 指出 
这 两 棵 树 如 何 合并 成 根 在 T4 的 新 树 。 第 五 步 合并 根 为 。 和 了 3 的 树 ,因为 这 两 棵 树 的 权 最 


小 。 该 步 结果 如 图 10-18 所 示 。 


Ay, 
aoe 


图 10-17 ”第 四 次 合并 后 的 哈 夫 曼 算法 
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图 10-18 第 五 次 合并 后 的 哈 夫 曼 算法 


最 后 , 将 两 个 剩 下 的 树 合并 得 到 图 10-11 所 示 的 最 优 树 。 图 10-19 画 出 这 棵 最 优 树 , 其 
HUE T6。 





图 10-19 最 后 一 次 合并 后 的 哈 夫 曼 算法 


我 们 将 概述 哈 夫 曼 算法 产生 最 优 代码 的 证 明 思 路 ;详细 的 细节 将 留 作 练习 。 首先 , 由 反 
证 法 不 难 证 明 树 必然 是 满 的 ,因为 我 们 已 经 看 到 一 棵 不 满 的 树 是 如 何 改进 成 满 树 的 。 

其 次 , 我 们 必须 证 明 两 个 频率 最 小 的 字符 a 和 8B 必 是 两 个 最 深 的 节点 (虽然 其 他 节点 可 
以 同样 地 深 )。 这 通过 反 证 法 同样 容易 证 明 , 因为 如 果 “或 B 不 是 最 深 的 节点 ， 那么 必然 存在 
某 个 y 是 最 深 的 节点 ( 记 住 树 是 满 的 )。 如 果 a 的 频率 小 于 y, 那么 我 们 可 以 通过 交换 它们 在 
树 中 的 位 置 而 改进 权 的 值 。 

然后 我 们 可 以 论证 , 在 相同 深度 上 任意 两 个 节点 处 的 字符 可 以 交换 而 不 影响 最 优 性 。 这 
说 明 , 总 可 以 找到 一 棵 最 优 树 , 它 含 有 两 个 最 不 经 常 出 现 的 符号 作为 兄弟 ;因此 第 一 步 没 有 
错 , 成 立 。 

证 明 可 以 通过 归纳 法 论证 完成 。 当 树 被 合并 时 , 我 们 认为 新 的 字符 集 是 在 根 上 的 那些 字 
符 。 于 是 , 在 我 们 的 例子 中 , 经 过 四 次 合并 以 后 , 我 们 可 以 把 字符 集 看 成 由 与 元 字符 T3 和 
T4 组 成 。 这 恺 怕 是 证 明 最 微妙 的 部 分 ;我 们 要 求 读者 补足 所 有 的 细节 。 

该 算法 是 贪 禁 算法 的 原因 在 于 , 在 每 一 阶段 我 们 都 进行 一 次 合并 而 没有 进行 全 局 的 考 
E. 我 们 只 是 选择 两 棵 最 小 的 树 。 

如 果 我 们 依 权 排序 将 这 些 树 保存 在 一 个 优先 队列 中 , 那么 , 由 于 对 元 素 个 数 不 超过 C 的 
优先 队列 将 进行 一 次 BuildHeap, 2C - 2 次 DeleteMin 和 C - 2 次 Insert, 因此 运行 时 间 为 
OCC logC)。 使 用 一 个 链表 简单 实现 该 队列 将 给 出 一 个 O(C?) 算 法 。 优先 队列 实现 方法 的 选 
择 取决 于 C 有 多 大 。 在 ASCH 字符 集 的 典型 情况 下 ，C 是 足够 小 的 , 这 使 得 二 次 的 运行 时 间 
是 可 以 接受 的 。 在 这 样 的 应 用 中 , 实际 上 几乎 所 有 的 运行 时 间 都 将 花费 在 读 人 输入 文件 和 写 





353 





270 £103 





出 上 压缩 文件 所 需要 的 磁盘 1/0 上 。 

有 两 个 细节 必须 要 考虑 。 首 先 , 在 压缩 文件 的 开头 必须 要 传送 编码 信息 ,因为 否则 将 不 
可 能 译 码 。 做 这 件 事 有 几 种 方法 , 见 练习 10.4。 对 于 一 些小 文件 , 传送 编码 信息 表 的 代价 将 
超过 压缩 带 来 的 任何 可 能 的 节省 , 最 后 的 结果 很 可 能 是 文件 扩大 。 当 然 , 这 可 以 检测 到 且 原 
文件 可 原样 保留 。 对 于 大 型 文件 , 信息 表 的 大 小 是 无 关 紧要 的 。 

第 二 个 问题 是 : 该 算法 是 一 个 两 趟 扫描 算法 。 第 一 遍 搜 集 频 率 数据 ,第 二 遍 进 行 编码 。 
显然 , 对 于 处 理 大 型 文件 的 程序 来 说 这 个 性 质 不 是 我 们 所 希望 的 。 某 些 另外 的 做 法 在 参考 文 
献 中 做 了 介绍 。 


10.1.3. 近似 装 箱 问题 





在 这 一 节 , 我 们 将 考虑 某 些 装 箱 问题 (bin packing problem) 的 算法 。 这 些 算法 将 运行 得 很 
快 , 但 未 必 产生 最 优 解 。 不 过 , 我 们 将 证 明 所 产生 的 解 距 最 优 解 不 太 远 。 











设 给 定 N 项 物品 , 大 小 为 s1，s2, …，sN, 所 有 的 大 小 都 
满足 0< s, 志 1。 问题 是 要 把 这 些 物品 装 到 最 小 数目 的 箱子 中 = os 
去 , 已 知 每 个 箱子 的 容量 是 1 个 单位 。 作 为 例子 , 图 10-20 m | 
显示 把 大 小 为 0.2, 0.5, 0.4, 0.7, 0.1, 0.3, 0.8 的 一 批 物 [v ot 
品 最 优 装 箱 的 方法 。 uli os 




















有 两 种 版 本 的 装 箱 问题 。 第 一 种 是 联机 (on-line) 装 箱 间 LG Lg 一 
MW. 在 这 种 问题 中 , 必须 将 每 一 件 物品 放 人 一 个 箱子 之 后 才 ays 0.5.0.4 
处 理 下 一 件 物品 。 第 二 种 是 脱 机 (offline) 装 箱 问题 。 在 一 个 “图 020 HO? 0-5 A 
朋 机 装 箱 算法 中 ”我 们 做 任何 事 都 需要 等 到 所 有 的 输入 数据 TONO OS BRIER 
全 被 读 人 之 后 才 进 行 。 联机 算法 和 脱 机 算法 之 间 的 区 别 在 8.2 节 讨论 过 。 


联机 算法 


要 考虑 的 第 “个 问题 是 ， 一 个 联机 算法 即使 在 允许 无 限 计算 的 情况 下 是 否 实际 上 总 能 给 
出 最 优 的 解答 。 我 们 知道 ,即使 允许 无 限 计算 , 联机 算法 也 必须 先 放 入 一 项 物品 然后 才能 处 
理 下 一 件 物品 并 且 不 能 改变 决定 。 

为 了 证 明 联 机 算法 不 总 能 够 给 出 最 优 解 ,我 们 将 给 它 一 组 特别 难 的 数据 来 处 理 。 考 虑 由 
重量 为 二 ~ e 的 M 个 小 项 和 其 后 重量 为 地 + e 的 M 个 大 项 构成 的 序列 用 , 其 中 0<e<0.01。 


显然 , 如 果 我 们 在 每 个 箱子 中 放 一 个 小 项 再 放 一 个 大 项 ， 那么 这 些 项 物品 可 以 放 人 到 M 个 
箱子 中 去 。 假设 存 在 一 个 最 优 联机 算法 A 可 以 进行 这 项 装 箱 工作 。 考 虑 算法 A 对 序列 1 的 


BE, 该 序列 只 由 重量 为 让 -e 的 M 个 小 项 组 成 。12 是 可 以 装 和 人 [ MA] 个 箱子 中 的 。 然 而 ， 
由 于 A 对 序列 Ly 的 处 理 结果 必然 和 对 T, 的 前 半 部 分 处 理 结果 相同 , 而 人 前 半 部 分 的 输入 
R 1; 的 输入 完全 相同 , 因此 A 将 把 每 一 项 物品 放 到 一 个 单独 的 箱子 内 。 这 说 明 A 将 使 用 的 
箱子 的 个 数 是 使 用 D 最 优 解 的 两 倍 。 这 样 我 们 证 明 了， 对 于 联机 装 箱 问题 不 存在 最 优 算法 。 

上 面 的 论述 指出 , 联机 算法 从 不 知道 输入 何 时 会 结束 ， 因此 它 提供 的 任何 性 能 保证 必须 
在 整个 算法 的 每 一 时 刻 成 立 。 如果 我 们 遵循 前 面 的 策略 ， 那么 我 们 可 以 证 明 下 列 定理 。 





JE nit HESS 271 





定理 10.1 


存在 使 得 任意 联机 装 箱 算法 至 少 使 用 最 优 箱子 数 的 输入 。 

证 明 : 

假设 情况 相反 ,为 简单 起 见 设 M 是 偶数 。 考 虑 任 一 运行 在 上 面 输入 序列 1, 上 的 联机 算 
法 A. 注意, 该 序列 由 M 个 小 项 后 接 M 个 大 项 组 成 。 让 我 们 考虑 该 算法 在 处 理 第 M 项 
后 都 做 了 什么 。 设 A 已 经 用 了 4。 个 箱子 。 在 此 刻 ,箱子 的 最 优 个 数 足 M2, 因为 我 们 可 


以 在 每 个 箱子 里 放 人 两 件 物品 。 于 是 我 们 知道 、 根据 我 们 的 低 于 所 的 性 能 保证 的 假设 ， 


29/M< $. 

现在 考虑 在 所 有 的 物品 都 被 装 箱 后 算法 A 的 性 能 。 在 第 b 个 箱子 之 后 开辟 的 所 有 箱子 
每 箱 恰好 包含 一 项 物品 , 因为 所 有 小 物品 都 被 放 在 了 前 b 个 箱子 中 , 而 两 个 大 项 物品 又 装 不 
进 一 个 箱子 中 去 。 由 于 前 b 个 箱子 每 箱 最 多 能 有 两 项 物品 , 而 其 余 的 箱子 每 箱 都 有 一 项 物 
品 , 因此 我 们 看 到 , 将 2M 项 物品 装 箱 将 至 少 需要 2M -b 个 箱子 。 但 2M 项 物品 可 以 用 M 


个 箱子 最 优 装 箱 ， 因 此 我 们 的 性 能 保障 保证 得 到 (2M - 00/M 5. 
第 一 个 不 等 式 意味 着 67M< 卫 ,而 第 二 个 不 等 式 意 味 着 0/M> F EFM, 因此、 


没有 腾 机 算法 能 够 保证 使 用 小 于 3 的 最 优 装 箱 数 完成 装 箱 。 

有 三 种 简单 算法 保证 所 用 的 箱子 数 不 多 于 二 售 的 最 优 装 箱 数 。 也 有 颇 多 更 为 复杂 的 算法 
能 够 得 到 更 好 的 结果 。 
下 项 适合 算法 

大 概 最 简单 的 算法 就 属 下 项 过 合 (next fit) 算 法 了 。 当 处 理 任何 一 项 物品 时 ， 我 们 检查 看 
它 是 否 还 能 装 进 刚刚 装 进 物品 的 同一 个 箱子 中 去 。 如 果 能 够 装 进去 ,那么 就 把 它 放 人 该 箱 
中 :否则 ,就 开辟 一 个 新 的 箱子 。 这 个 算法 实现 起 来 出 奇 地 简单 而 且 还 以 线性 时 间 运 行 。 图 
10-21 显示 对 于 与 图 10-20 相同 的 输入 所 得 到 的 装 箱 过 程 。 
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图 10-21. 对 0.2, 0.5, 0.4, 0.7, 0.1, 0.3, 0.8 的 下 项 适合 算法 


下 项 适合 算法 不 仅 编程 简单 ,而 且 它 的 最 坏 情形 的 行为 也 容易 分 析 。 


定理 10.2 
Ay M 是 将 一 列 物 品 1 装 箱 所 需 的 最 优 装 箱 数 , 则 下 项 适合 算法 所 用 箱 数 绝 不 超过 2M 


个 箱子 。 存 在 一 些 顺序 使 得 下 项 适合 算法 用 箱 2M -2 个 。 
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证 明 : 
考虑 任何 相 邻 的 两 个 箱子 B, 和 B, ,1， B, 和 局 :1 中 所 有 物品 的 大 小 之 和 必然 大 于 1, 否 
则 所 有 这 些 物 品 就 会 全 部 放 和 人 Bi P-o 如 果 我 们 将 该 结果 用 于 所 有 相 邻 的 两 个 箱子 , 那 
么 我 们 看 到 , 项 多 有 一 半 的 空间 闲置 - 因此 ,下 项 适合 算法 最 多 使 用 二 倍 的 最 优 箱子 数 。 
为 说 明 这 个 界 是 精确 的 , 设 N 项 物品 , 当 i 是 奇数 时 ,物品 的 大 小 s; =0.5 而 当 i 是 
偶数 时 s; =2/N。 BEN 可 被 4 整除 。 图 10-22 所 示 的 最 优 装 箱 由 含有 2 件 大 小 为 0.5 的 
物品 的 N/4 个 箱子 和 含有 N 2 件 大 小 为 2ZN 物品 的 一 个 箱子 组 成 ,总 数 为 ( N /4) + 1。 
图 10-23 表 示 下 项 适合 算法 使 用 N 2 MAF. 因此 , 下 项 适合 算法 可 以 用 到 几乎 二 倍 于 
最 优 装 箱 数 的 箱子 。 
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图 10-22 对 0.5, 2/N, 0.5, 2/N, 0.5, 2/N,…… 的 最 优 装 箱 方法 
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图 10-23 对 0.5, 2/N, 0.5, 2/N, 0.5, 2/N, …… 的 下 项 适合 装 箱 法 

首次 适合 算法 

虽然 下 项 适合 算法 有 一 个 合理 的 性 能 保证 , 但 是 , 它 的 效果 在 实践 中 却 很 差 ， 因 为 在 不 

需要 开辟 新 箱子 的 时 候 它 却 开辟 了 新 箱子 。 在 前 面 的 样 例 运行 中 ,本 可 以 把 大 小 0.3 的 物品 
HA By 或 By 而 不 是 开辟 一 个 新 箱子 。 















































首次 适合 算法 (first fit) 的 策略 是 依 序 扫描 这 些 a y | [a = 
箱子 但 把 新 的 一 项 物品 放 入 足 能 盛 下 它 的 第 一 个 o] | 
箱子 中 。 因此 , 只 有 当先 前 放置 物品 的 结果 已 经 没 | | | m 
有 再 容 下 当前 物品 余地 的 时 候 , RIAA- | or | | 9* 
箱子 。 图 10-24 指出 对 我 们 的 标准 输入 进行 首次 适 Moa | | 
合算 法 的 装 箱 结果 。 i 


实现 首次 适合 算法 的 一 个 简单 方法 是 通过 顺 
序 归 描 箱 子 序列 处 理 每 一 项 物品 , 这 将 花费 C tian 
O(N?)。 有 可 能 以 O(N log N) 运 行 来 实现 首次 适 s 
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合算 法 ;我 们 把 它 留 作 练习 。 


略 加 思索 读者 即 可 明白 , 在 任 一 时 刻 最 多 有 一 个 箱子 其 空 出 的 部 分 大 于 箱子 的 一 半 , 因 
为 若 有 第 二 个 这 样 的 箱子 , 则 它 装 的 物品 就 会 装 到 第 一 个 这 样 的 箱子 中 了 。 因此 我 们 可 以 立 
即 断 言 : 首次 适合 算法 保证 其 解 最 多 包含 最 优 装 箱 数 的 二 倍 。 

另 一 方面 , 我 们 在 证 明 下 项 适合 算法 性 能 的 界 时 所 用 到 的 最 坏 情况 对 首次 适合 算法 不 适 
FA. 因此 , 人 们 可 能 要 问 : 是 否 能 够 证 明 更 好 的 界 呢 ? 答案 是 肯定 的 ,不 过 证 明 要 复杂 一 些 。 


定理 10.3 


4 M 是 将 一 列 物品 1 装 箱 所 需要 的 最 优 箱子 数 , 则 首次 适合 算法 使 用 的 箱子 数 绝 不 多 
v [Uv]. 存在 使 得 首次 适合 算法 使 用 所 ( M - D 个 箱子 的 顺序 。 


证 明 : 
参阅 本 章 末尾 的 参考 文献 。 


使 用 首次 适合 算法 得 出 的 结果 和 前 面 定理 指出 的 结果 几乎 一 样 差 的 例子 见 图 10-25 所 
m. 图 中 的 输入 由 6M wept +e 的 项 后 跟 GM By + e 的 项 以 及 接 下 来 6M 个 
大 小 为 二 + 的 项 组 成 。 一 种 简单 的 装 箱 办 法 是 将 每 种 大 小 的 各 一 项 物品 装 到 一 个 箱子 中 ， 
总 共 需 要 6M 个 箱子 。 如 用 首次 适合 算法 , WER 10M 个 箱子 。 
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图 10-25 首次 适合 算法 使 用 10M 个 而 不 是 6M 个 箱子 的 情形 


当 首 次 适合 算法 对 大 量 其 大 小 均匀 分 布 在 0 和 1 之 间 的 物品 进行 运算 时 ,经 验 结果 指出 ， 
首次 适合 算法 用 到 大 约 比 最 优 装 箱 方法 多 2% 的 箱子 。 在 许多 情况 下 , 这 是 完全 可 以 接受 的 。 


最 佳 适合 算法 


我 们 将 要 考查 的 第 三 种 联机 策略 是 最 佳 适合 算法 (best fit)。 该 法 不 是 把 一 项 新 物品 放 入 
所 发 现 的 第 一 个 能 够 容纳 它 的 箱子 ， 而 是 放 到 所 有 箱子 中 能 够 容纳 它 的 最 满 的 箱 了 中 。 典型 


的 装 箱 方法 如 图 10-26 所 示 。 

注意 , 大 小 为 0.3 的 项 不 是 放 在 B 而 是 放 在 了 
Bs, 此 时 它 正好 把 By 填 满 。 由 于 我 们 现在 对 箱子 进 
行 更 细致 的 选择 , 因此 人 们 可 能 认为 算法 性 能 保障 会 


有 所 改善 但 是 情况 并 非 如 此 ,因为 总 的 说 来 坏 情形 是 | 


相同 的 。 最 佳 适合 算法 比 起 最 优 算法 , 绝 不 会 坏 过 1.7 
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售 左右 ,而 且 存在 一 些 输入 , 对 于 这 些 输入 该 算法 ( 几 图 10-26 对 0.2, 0.5. 0.4, 0.7, 0.1. 


乎 ) 达 到 这 个 界限 。 不 过 , 最 佳 适合 算法 编程 还 是 简单 


0.3, 0.8 的 最 佳 适合 算法 
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的 , 特别 是 当 需 要 O(N log N) 算 法 的 时 候 , 而 且 该 算法 对 随机 的 输入 确实 表现 得 更 好 
脱 机 算法 

如 果 我 们 能 够 观察 全 部 物品 以 后 再 算出 答案 , 那么 我 们 应 该 会 做 得 更 好 。 事 实 确实 如 
此 , 由 于 我 们 通过 彻底 的 搜索 能 够 最 终 找 到 最 优 装 箱 方法 ， 因 此 我 们 对 联机 情形 就 已 经 有 了 
一 个 理论 上 的 改进 。 

所 有 联机 算法 的 主要 问题 在 于 将 大 项 物品 装 箱 困难 ， [63 oI 
特别 是 当 它 们 在 输入 的 晚期 出 现 的 时 候 。 围 绕 这 个 问题 的 [0 3 ire 
自然 方法 是 将 各 项 物品 排序 , 把 最 大 的 物品 放 在 最 先 。 此 
时 我 们 可 以 应 用 首次 适合 算法 或 最 佳 适 合算 法 , 分 别 得 到 | 08 07 
首次 适合 递减 算法 (first fit decreasing) 和 最 佳 适合 递减 算法 
(best fit decreasing). [8l 10-27 指出 在 我 们 的 例子 中 这 会 产 
生 最 优 解 (尽管 在 一 般 的 情形 下 显然 未 必 会 如 此 )。 

本 小 节 我 们 将 处 理 首次 适合 递 碱 算法 。 对 于 最 佳 适合 图 10-27 对 0.8, 0.7, 0.5, 0.4. 
递减 算法 ,结果 几乎 是 一 样 的 。 由 于 存在 物品 大 小 不 互 异 00 02 0 的 首次 适合 算法 
的 可 能 ,因此 有 些 作者 更 愿意 把 首次 适合 递减 算法 叫做 首次 适合 非 增 算法 (first fit nonin- 
creasing), 我 们 将 沿用 原始 的 名 称 。 不 失 一 般 性 , 我们 还 要 假设 输入 数据 已 经 根据 大 小 排序 

我 们 能 够 做 的 第 一 个 评注 是 , 首次 适合 算法 使 用 10M 个 而 不 是 6M 个 箱子 的 坏 情形 在 
物品 项 被 排序 的 情况 下 不 会 再 发 生 。 我 们 将 证 明 , 如 果 一 种 最 优 装 箱 法 使 用 M 个 箱子 ,那么 
首次 适合 递减 算法 使 用 的 箱子 数 绝 不 超过 (4M + 1)/3。 

这 个 结果 依赖 于 两 项 观察 。 首 先 ,所 有 重量 大 于 十 的 项 将 被 放 入 前 M 个 箱子 内 。 这 意味 
着 , 在 外 加 的 箱子 中 所 有 各 项 的 重量 项 多 是 、。 第 二 个 结论 是 ， 在 外 加 的 箱子 中 物品 的 项 数 
最 多 可 以 是 M - 1。 把 这 两 个 结果 结合 起 来 我 们 发 现 , 外 加 的 箱子 最 多 可 能 需要 [(M - 73 
1 个 。 现在 我 们 证 明 这 两 项 观察 结果 。 


引 理 10.1 
令 N 项 物品 的 输入 大 小 (以 递减 顺序 排序 ) 分 别 为 s，*a，…，sN， 并 设 最 优 装 箱 方法 使 


用 M 个 箱子 。 那 么 ,首次 适合 递减 算法 放 到 外 加 的 箱子 中 的 所 有 物品 的 大 小 最 多 为 于 
证 明 : 
设 第 ; 项 物品 是 放 和 第 M + 1 个 箱子 中 的 第 一 个 物品 。 我们 需要 证 明 <A o RIE 
用 反 证 法 证 明 这 个 结论 。 设 s> T 

由 于 这 些 物 品 的 大 小 是 以 排 好 序 的 顺序 排列 的 , PIE, si s2 e sca pe HUE 


得 知 , 所 有 的 箱子 By, Bo. …，Bw 每 个 最 多 只 有 两 项 物品 。 
考虑 在 第 i -1 项 物品 被 放 人 一 个 箱子 后 但 第 i 项 物品 尚未 放 人 时 系统 的 状态 。 BL 


在 我 们 想 要 证 明 (在 s; >4 的 假设 下 ) 前 M 个 箱子 排列 如 下 : 首先 是 有 些 箱子 内 恰好 有 


一 项 物品 , 然后 剩 下 的 箱子 内 有 两 项 物品 。 
设 有 两 个 箱子 B, MB, 使 得 1<r<y<M，B, 有 两 项 而 B, 有 一 项 。 令 zl 和 < 是 
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B, 中 的 两 项 物品 , 并 令 y, 是 B, 中 的 那 项 物品 。zi 之 yi， 因为 zi 被 放 在 较 前 的 箱子 中 。 根 
据 类 似 的 推理 >s; 因此 ,rt + 22> yy, + spo 这 意味 着 s; 是 应 该 可 以 放 在 B, 中 的 。 根据 我 
们 的 假设 , 这 是 不 可 能 的 。 因此 , 如 果 srt. 那么 在 我 们 试图 处 理 s; 时 , 这样 安排 前 M 个 


箱子 ,使 得 前 7 个 箱子 各 装 一 个 物品 , 而 后 M 一 j 个 箱子 各 放 两 个 物品 。 

为 了 证 明 该 引 理 , 我 们 将 证 明 不 存在 将 所 有 物品 装 人 M 个 箱子 的 方法 , 这 和 引 理 的 假 
WF. 

显然 , E si, sayy 5 中 使 用 任何 算法 都 没有 两 项 可 以 放 人 一 个 箱子 中 , 因为 如 果 能 
放 , 那么 首次 适合 算法 也 能 放 。 我 们 还 知道 , 首次 适合 算法 尚未 把 大 小 为 5+1，5*2、…， 
中 的 任 一 项 放 入 前 j 个 箱子 中 , 因此 它们 都 不 适合 。 这样 , 在 任何 装 箱 方法 中 ， mor 
箱 方 法 中 ,必然 存在 j 个 箱子 不 包含 这 些 项 。 由 此 可 知 , KDY sias senes sia TUS 
然 包含 在 M -j 个 箱子 的 集合 中 , 考虑 到 前 面 的 讨论 , 于 是 这 些 项 的 总 数 为 20M - 5). 0 


注意 , 如 果 5 > 村 ,那么 只 要 证 明 s; 没有 方法 放 入 这 M 个 箱子 当中 的 一 个 中 去 , 该 引 理 
的 证 明 也 就 完成 了 。 事实 上 , 显然 它 不 能 放 入 这 j 个 箱子 中 去 ， 因 为 假如 能 放 入 ,那么 首次 
适合 算法 也 能 够 这 么 做 。 把 它 放 人 其 余 的 M- j 个 箱子 之 一 中 需要 把 UM - j) + 1 项 物品 分 
发 到 这 M - ) 个 箱子 中 。 因此, 某 个 箱子 就 不 得 不 装 入 三 件 物品 ,而 它们 中 的 每 一 件 部 大 于 
L, ARIE, 这 是 不 可 能 的 。 

这 idu dna M 个 箱子 的 事实 矛盾 , 因此 开始 的 假设 肯定 是 不 正确 


的 , 从 而 ss <> l a 
313 10.2 
放 入 外 加 的 箱子 中 的 物品 的 个 数 最 多 是 M - 1。 
证 明 : 
假设 放 人 外 加 的 箱子 中 的 物品 至 少 有 M 个 。 我 们 知道 D, MES <M ,因为 所 有 的 物品 
都 可 装 人 M 个 箱子 。 设 对 于 3M, 箱子 B 装 人 后 总 重 Wi。 设 前 M 个 外 加 箱子 中 
的 物品 大 小 为 zx,，za,， …，zw。 此 时 ,由 于 前 M 个 箱子 中 的 项 加 上 前 M 个 外 加 箱子 中 
的 项 是 所 有 物品 的 一 个 子 集 , 于 是 


Sse hw, + Ža = Sow, +2) 
现在 W,* x21. 否则 对 应 于 ij 的 项 就 已 经 放 人 已 中 。 因此 
3a 


4 


即 这 N 项 被 装 入 M 个 箱子 中 是 不 可 能 的 。 因此 ， 最 多 只 能 有 M - 1 项 外 加 的 物品 。 


定理 10.4 
令 M 是 将 物品 集 1 装 箱 所 需 的 最 优 箱子 数 , 则 首次 适合 递减 算法 所 用 箱子 数 绝 不 超过 


(4M +1)/3。 











3 首次 适合 算法 把 这 些 元 素 装 入 M 一 / 个 箱子 并 在 每 个 箱子 中 放 人 两 项 物品 。 因 此 有 2( M -jie 
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证 明 : 

存在 M -1 项 外 加 的 箱子 中 的 物品 , 其 大 小 至 多 为 十。 因此 ， 最 多 可 能 存在 [(M 1)/31 个 

其 余 的 箱子 。 从 而 , 由 首次 适合 递减 算法 使 用 的 箱子 总 数 最 多 为 [(4M- D)3TS(4M+ A, 
能 够 证 明 , 对 于 首次 适合 递减 算法 和 下 项 适合 递减 算法 ， 都 有 一 个 紧 得 多 的 界 。 

定理 10.5 

令 M 是 将 物品 集装箱 所 需 的 最 优 箱子 数 , 则 首次 适合 递减 算法 所 用 箱子 数 绝 不 超过 

M+ 4。 此 外 ,存在 使 得 首次 适合 递 减 算法 用 到 了 M 个 箱子 的 序列 。 

证 明 : 

上 界 需要 非常 复杂 的 分 析 。 下 界 可 以 通过 下 述 序列 展示 : ERNAI +e 的 OM 项 ， 

其 后 是 大 小 为 车 + 2e 的 6M 项 , 接 下 来 是 十 + e 的 6M 项 , 最 后 是 大 小 为 上 -2e 的 

12M 项 物品 。 图 10-28 指出 最 优 装 箱 需 要 9M 个 箱子 ， 而 首次 适合 递减 算法 需要 11M 

个 箱子 。 






































最 优 法 首次 适合 递减 法 
| fuz] Fs | fas 
Va-2e| |s- 2e a | | 空 14 ~ 2 
j 
wee 1A - 2e Wa+2e] [Vase] |14- 2e: 
VA + 2c] Ware) | -2 
i2se| re 
| 1⁄4 + 2€ | yat VA - 2c 
j L 
Bi 一 Bew Boui Bow Bu Bog Bou. HBsuyBry Bie 











图 10-28 首次 适合 递减 算法 使 用 11M 个 箱子 , 但 只 有 9M 个 箱子 就 足够 完成 装 箱 的 例子 


在 实践 中 , 首次 适合 递减 算法 的 效果 非常 好 。 如 果 大 小 在 单位 区 间 均 匀 分 布 , 那么 外 加 
的 箱子 的 期 望 个 数 为 9(VM )。 装 箱 算法 是 简单 贪 禁 试 探 算法 能 够 给 出 好 结果 的 一 个 好 
例子 。 


10.2 分 治 算法 


用 于 设计 算法 的 另 一 种 常用 技巧 为 分 治 (divide and conquer) 算 法 。 分 治 算法 由 两 部 分 组 成 : 

分 (divide) : 递归 解决 较 小 的 问题 (当然 , 基本 情况 除外 )。 

治 (conquer) : 然后 , 从 子 问题 的 解构 建 原 问题 的 解 。 

传统 上 , 在 正文 中 至 少 含有 两 个 递归 调用 的 例 程 叫做 分 治 算法 ， 而 正文 中 只 含 一 个 递归 
调用 的 例 程 不 是 分 治 算法 。 我们 一 般 坚持 子 问 题 是 不 相交 的 ( 即 基本 上 不 重合 )。 让 我 们 回顾 
本 书 涉及 到 的 某 些 递归 算法 。 

我 们 已 经 看 到 几 个 分 治 算法 。 在 2.4.3 节 我 们 见 过 最 大 子 序列 和 问题 的 一 个 
O(N log N) 解 。 在 第 4 章 , 我 们 看 到 过 一 些 线性 时 间 的 树 遍历 方法 。 在 第 7 章 , 我 们 见 过 分 
治 算法 的 经 典 例子 ， 即 归并 排序 和 快速 排序 , 它们 在 最 坏 情形 以 及 平均 情形 分 别 有 
O(N log N) 的 时 间 界 。 
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我 们 还 看 到 过 递归 算法 的 若干 例子 , 在 分 类 上 它们 很 可 能 不 算 作 分 治 算法 而 只 是 化 简 
到 一 个 更 简单 的 情况 。 在 1.3 节 , 我 们 看 到 一 个 简单 的 显示 一 个 数 的 例 程 。 在 第 2 章 , 我 们 使 
用 递归 执行 有 效 的 取 睾 运算 。 在 第 4 章 , 我 们 考察 了 二 又 查找 树 一 些 简单 的 搜索 例 程 。 在 6.6 
节 , 我 们 见 过 用 于 合并 左 式 堆 的 简单 的 递归 - 在 7.7 节 给 出 了 一 个 花费 线性 平均 时 间 解 决 选 
择 问 题 的 算法 。 第 8 章 递归 地 写 出 了 不 相交 集 的 Find 操作 。 第 9 章 指出 以 Dijkstra 算法 重新 
找 出 最 短路 径 的 一 些 例 程 以 及 对 图 进行 深度 优先 搜索 的 其 他 过 程 。 这 些 算法 实际 上 都 不 是 分 
治 算法 ， 因 为 只 进行 了 一 次 递归 调用 。 
我 们 在 2.4 节 还 看 到 计算 斐 波 那 契 数 的 很 不 好 的 递归 例 程 。 我 们 可 以 称 其 为 分 治 算法 ， 
但 它 的 效率 太 差 了 , 因为 问题 实际 上 根本 没有 被 分 割 。 
在 这 一 节 , 我 们 将 看 到 分 治 算法 更 多 的 范例 。 我 们 的 第 一 个 应 用 是 计算 几何 中 的 问题 。 
给 定 平面 上 的 N 个 点 , 我 们 将 证 明 最 近 的 一 对 点 可 以 在 O(N log N) 时 间 找 到 。 本 章 后 面 的 
一 些 练习 描述 了 计算 几何 中 另外 一 些 问题 , 它们 可 以 由 分 治 算法 求解 。 本 节 其 余部 分 证 明理 
论 上 一 些 极其 有 趣 的 结果 。 我 们 提供 一 个 算法 以 O(N) 最 坏 情 形 时 间 解 决 选择 问题 。 我 们 还 
要 证 明 可 以 用 o(N2) 操 作 将 2 个 N- 比 特 位 的 数 相 乘 并 以 o( N3) 操 作 将 两 个 矩阵 相 乘 。 不 幸 
的 是 , 虽然 这 些 算法 最 坏 情形 时 间 界 比 传统 算法 更 好 , 但 如 果 输 入 并 不 特别 巨大 , 则 它们 都 
并 不 实用 。 
10.2.1 分 治 算法 的 运行 时 间 
我 们 将 要 看 到 的 所 有 有 效 的 分 治 算法 都 是 把 问题 分 成 一 些 子 问题 , 每 个 子 问题 都 是 原 问 
题 的 一 部 分 ,然后 进行 某 些 附加 的 工作 以 算出 最 后 的 答案 。 作 为 一 个 例子 , 我 们 已 经 看 到 归 
并 排序 对 两 个 问题 进行 运算 , 每 个 问题 均 为 原 问 题 大 小 的 一 半 , 然后 使 用 O(NN) 附 加 工作 。 
由 此 得 到 运行 时 间 方 程 ( 带 有 适当 的 初始 条 件 ) 
T(N)=2T(N2)+ O(N) 
我 们 在 第 7 章 看 到 , 该 方程 的 解法 为 O(N log ND. 下 面 的 定理 可 以 用 来 确定 大 部 分 分 
治 算法 的 运行 时 间 。 
定理 10.6 
Ji T(N) - aT(N/b) + GCN')ROROS 
(O(N) Ha >be 
T(N) =4O(NlogN) # a= 
IOCON) dac 
其 中 a21, b>1。 
证 明 : 
根据 第 7 章 归并 排序 的 分 析 , 我 们 将 假设 N 是 6 HR FI, 可 令 N=6b”。 此 时 NA 人 = 
pn BNE = (om yt = anm = 6” = (P), 让 我 们 假设 TO) = 1, 并 忽略 @(N*) 中 的 党 
数 因子 , 则 有 
T(6")=aT(b™"*) +( ak)” 
如 果 我 们 用 a” 除 两 边 , 则 得 到 
Tu -| 让 (10.3) 


a" ami a 


图 


E 
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我 们 可 以 对 m 的 其 他 值 应 用 该 方程 , 得 到 














Tibet) Tu) foe) 
WU get ota (10.4) 
Tum T=) | {BEY 
et eer Fhe (10.5) 
Té TO , foe] 
wow ta (10.6) 


PEATE FRE (10.3) 8 (10.6) EA Hy BE PLD A LR PRET, 等 号 左边 的 所 有 项 实 
际 上 与 等 号 右边 的 前 一 项 相 消 , 由 此 得 到 





T(b =f 
= -1+5 [4 (10.7) 
- 3 {4} (10.8) 
i= 
因此 
mm 
TIN) = Ti") = a" > " (10.9) 
i=0 


如 果 a > D^. 那么 和 就 是 一 个 公 比 小 于 1 的 几何 级 数 。 由 于 无 穷 级 数 的 和 收敛 于 一 个 常 
数 , 因此 该 有 穷 级 数 也 以 一 个 常数 为 界 , 从 而 方程 (10.10) 成 立 : 
T(N) = Ola”) = O(a!) = O(N") (10.10) 
如 果 a = 从 , 那么 和 中 的 每 一 项 均 为 1。 由 于 和 含有 1+ logN 项 而 a= 从 意味 着 loga = 人， 
于 是 
TIN) = Ola" log, N) = O(N" log, N) = O(N‘ log, N) 
= O(N‘ logN) (10.11) 
最 后 , 如 果 a 之 从 , 那么 该 几何 级 数 中 的 项 都 大 于 1, 且 节 1.2.3 中 的 第 二 个 公式 成 立 。 
我 们 得 到 
OG ay"*! — 1 
T(N) = a Hayat 
定理 的 最 后 一 种 情形 得 证 。 
作为 一 个 例子 , 归并 排序 有 a-b-2 k=l, 第 二 种 情形 成 立 ， 因此 答案 为 O(N log N)。 
如 果 我 们 求解 三 个 问题 , 每 个 问题 都 是 原始 大 小 的 一 半 , 使 用 O(N) 的 附加 工作 将 解 联合 起 
K, 则 a =3, b=2 而 上 =1。 此 处 情形 1 成立, 于 是 得 到 界 O(N) = O(N 9), 求解 三 个 
一 半 大 小 的 问题 但 需要 O(N?) 工 作 以 合并 解 的 算法 将 需要 O(N2) 的 运行 时 间 , 因为 此 时 第 


三 种 情形 成 立 。 


= Ola™(b*/ay") = O(b*)") = O(N*) — (10.12) 
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有 两 个 重要 的 情形 定理 10.6 没有 包括 。 我 们 再 叙述 两 个 定理 , 但 把 证 明 留 作 练习 。 定理 
10.7 推广 了 前 面 的 定理 。 

定理 10.7 
方程 T(N)=aT(N/6b) +B(Ntlog?N) 的 解 为 

O(NYer) Hart! 

T(N) -1O(N'log'N) Xia 

lO( Ntlog?N) Bax 
HH a21, b > 1H p>. 
定理 10.8 


如 果 Di a; <1, WAH TON) = Nh TN) + O(N) 的 解 为 T(N)= O(N)。 
10.2.2 最 近 点 问题 


我 们 第 一 个 问题 的 输入 是 平面 上 的 点 列 Po WR pr = Cris y I p= Gros y2), 那么 
i 和 pa 间 的 欧 几 里 德 距离 为 [(zi 7 zz)2 + Or 7 y2)?]12。 我们 需要 找 出 一 对 最 近 的 点 。 有 
可 能 两 个 点 位 于 相同 的 位 置 ;在 这 种 情形 下 这 两 个 点 就 是 最 近 的 ， 它们 的 距离 为 零 。 

如 果 存 在 N 个 点 , 那么 就 存在 NON - 1)/2 对 点 间 的 距离 。 我 们 可 以 检查 所 有 这 些 距 
离 , 得 到 一 个 很 短 的 程序 , 不 过 这 是 一 个 花费 O(N2) 的 算法 。 由 于 这 种 方法 是 一 种 详尽 的 搜 
R, 因此 我 们 应 该 期 望 做 得 更 好 一 些 。 

假设 平面 上 这 些 点 已 经 按照 x 的 坐标 排 过 序 , 最 差 也 只 不 过 在 最 后 的 时 间 界 上 仅 多 加 了 了 
O(N log N) 而 已 。 由 于 将 证 明 整 个 算法 的 O(N log N) 界 , 因此 从 复杂 度 的 观点 来 看 , 该 排 
序 基本 上 没 增加 时 间 消 耗 的 级 别 。 

图 10-29 画 出 一 个 小 的 样本 点 集 Po 既然 这 些 点 已 按 x 坐标 排序 , 那么 我 们 就 可 以 画 一 
条 想像 的 重 线 , 把 点 集 分 成 两 半 : P, 和 PR。 这 做 起 来 当然 简单 。 现 在 我 们 得 到 的 情形 几乎 和 
我 们 在 2.4.3 节 的 最 大 子 序列 和 问题 中 见 过 的 情形 完全 相同 。 最 近 的 一 对 点 或 者 都 在 PL 中 ， 
或 者 都 在 Pk 中 , 或 者 一 个 在 已 中 而 另 一 个 在 PR Po 让 我 们 把 这 三 个 距离 分 别 叫做 dL 、dR 
和 de. 图 10-30 显示 出 点 集 的 分 化 和 这 三 个 距离 。 


| | 


| 图 10-29 一 个 小 规模 的 点 集 图 10-30 被 分 成 P 和 Pk HARP, 
图 中 显示 了 最 短 的 距离 


[s 
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我 们 可 以 递归 地 计算 d, 和 cd。 本 问题 此 时 就 是 e 
计算 dco 由 于 我 们 想 要 一 个 O(N log N) 的 解 , 因此 





我 们 必须 能 够 仅仅 多 花 O(N) 的 附加 工作 计算 出 dew t) 

我 们 已 经 看 到 ,如果 一 个 过 程 由 两 个 一 半 大 小 的 递归 

调用 和 附加 的 O(N) 工 作 组 成 , 那么 总 的 时 间 将 是 m th 

O(N log N)。 d 
4 86=min (di, dg). 我们 的 第 一 个 观察 结论 是 ， “ É | 


如 果 aco o 有 所 改进 , 那么 我 们 只 需 计 算 dco MR 
dc 是 这 样 的 距离 ， 则 定义 dc 的 两 个 : 
的 6 距离 之 内 ;我 们 将 把 这 个 区 域 叫做 一 条 常 (strip)。 iiid WEG ds 
Rp Me re 了 需要 考虑 的 点 对 于 dc 带 所 考虑 的 全 部 点 

有 两 种 方法 可 以 用 来 计算 doo 对 于 均匀 分 布 的 大 型 点 集 , 预计 位 于 该 带 中 的 点 的 个 数 是 
非常 少 的 。 事 实 上 , 容易 论证 平均 只 有 O(VN ) 个 点 是 在 这 个 带 中 。 因此, 我 们 可 以 以 O(N) 
时 间 对 这 些 点 进行 蛮 力 计算 。 图 10-32 中 的 伪 代 码 实现 该 方法 ,其 中 按照 C 语言 的 约定 , 点 
的 下 标 从 0 开始 。 








/* Points are all in the strip */ 


for( i = 0; i < NumPointsInStrip: i++ ) 
for( j = i + 1; j < NumPointsInStrip; j++ ) 
AFC DistiP,,P,) < 8 ) 
5 = Dist. Pos 











图 10-32 min (6, dc) 的 蛮 力 计算 


在 最 坏 情形 下 ,所 有 的 点 可 能 都 在 这 条 带 状 区 域内 , 因此 这 种 方法 不 总 能 以 线性 时 间 运 
fi. 我 们 可 以 用 下 列 的 观察 结果 改进 这 个 算法 : 确定 dc 的 两 个 点 的 y 坐标 差别 最 多 是 6。 否 
则 ,dc>8。 设 带 中 的 点 按照 它们 的 y 坐标 排序 。 因此, WR p, Alp; Wy 坐标 相差 大 于 5, I 
么 我 们 可 以 继续 处 理 p; .1。 这 个 简单 的 修改 在 图 10-33 中 实现 。 





/* Points are all in the strip and sorted by y coordinate */ 


for( 1 = 0; i < NumPointsInStrip; i++ ) 
for( j = i + 1; j < NumPointsInStrip; j++ ) 
if( P, and P,'s coordinates differ by more than ô ) 
/ 





break; /* Go to next P, . *. 
else 
if( DistiP, P.) < 8 ) 

5 = DistiP, P. 








1810.33 min (ô, dc) 的 精炼 计算 


这 个 附加 的 测试 对 运行 时 间 有 着 显著 的 影响 , 因为 对 于 每 一 个 pi 在 pi Mp, 的 > 坐标 
相差 大 于 6 并 被 迫 退出 内 层 for 循环 以 前 , 只 有 少数 的 点 p, 被 考查 。 例如, 图 10-34 显示 对 
于 点 ps 只 有 两 个 点 pa 和 ps 落 在 垂直 距离 在 6 之 内 的 带 状 区 域 中 。 

对 于 任意 的 点 p;, 在 最 坏 的 情形 下 最 多 有 7 个 点 p, 被 考虑 。 这 是 因为 这 些 点 必定 落 在 
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该 带 状 区 域 左 半 部 分 的 SX 0 方块 内 或 者 落 在 该 带 状 区 域 右 半 部 分 的 Gx 6 方块 内 - 另 一 方 
面 , ERA 0X 方块 内 的 所 有 的 点 至 少 分 离 $。 在 最 坏 的 情形 下 , 每 个 方块 包含 4 个 点 , 每 
个 角 上 一 个 点 。 这 些 点 中 有 一 个 是 户 , 最 多 还 剩 下 7 个 点 要 考虑 。 最 坏 情形 的 状况 见 图 10-35 
所 示 。 注意 , 虽然 各 ?和 pk! 有 相同 的 坐标 , 但 它们 可 以 是 不 同 的 点 。 对 于 实际 的 分 析 来 说 ， 
惟一 重要 的 是 A x24 的 矩形 区 域 中 的 点 的 个 数 为 O(1), 这 当然 很 清楚 。 




















pre lop: Pu Pur Pn Pr 
. 
P 
T " Left half (AxA) | Right half à x A) 
” 4 : 
xe | 人 
K—8-—k—8—» Pus Pus PRs Pri 
图 10-34 在 第 二 个 for 循环 内 图 10-35 最 多 有 8 个 点 在 该 矩形 中 ; 
只 有 p, 和 ps 被 考虑 有 两 个 坐标 其 中 每 个 都 由 两 个 点 分 享 


因为 对 于 每 个 p, 最 多 有 7 个 点 要 考虑 ,所 以 计算 比 ò 好 的 dc 的 时 间 是 O(N)。 因 此 ， 
基于 两 个 一 半 大 小 的 递归 调用 加 上 联合 两 个 结果 的 线性 附加 工作 , 看 来 我 们 似乎 对 最 近 点 问 
题 有 一 个 O(N log N) 解 。 然 而 , 我 们 还 没有 真正 得 到 OCN log N) 的 解 。 

问题 在 于 , 我 们 已 经 假设 这 些 点 按照 y 坐标 排序 是 现成 的 。 如 果 对 于 每 个 递归 调用 我 们 
都 执行 这 种 排序 , 那么 我 们 又 有 O(N log N) 的 附加 工作 : 这 就 得 到 一 个 O(N log N) PK» 
不 过 问题 还 不 全 这 么 糟 , 尤其 在 和 蛮 力 O( N2) 算 法 比较 的 时 候 。 然而 , 不 难 把 对 于 每 个 递归 
调用 的 工作 简化 到 O(N)， 从 而 保证 O(N log N) 算 法 。 

我 们 将 保留 两 个 表 。 一 个 是 按照 x 坐标 排序 的 点 的 表 , 而 另 一 个 是 按照 y 坐 你 排序 的 点 的 
表 , 我 们 分 别称 这 两 个 表 为 P 和 Q。 这 两 个 表 可 以 通过 一 个 预 处 理 排序 步骤 花费 O(N log N) 
得 到 , 因此 并 不 影响 时 间 界 。P, 和 Qi 是 传递 给 左 半 部 分 递归 调用 的 参数 表 ，Pr 和 Qk 是 传 
递 给 右 半 部 分 递归 调用 的 参数 表 。 我 们 已 经 看 到 ，P 很 容易 在 中 间 分 开 。 一 旦 分 割 线 已 知 ， 
我 们 依 序 转 到 Q, 把 每 一 个 元 素 放 入 相 应 的 Qi 或 QR。 容易 看 出 ,QL 和 Qa 将 自动 地 按照 > 
坐标 排序 。 当 递归 调用 返回 时 , 我 们 扫描 Q 表 并 删除 其 z 坐标 不 在 带 内 的 所 有 的 点 。 此 时 Q 
只 含有 带 中 的 点 ， 而 这 些 点 保证 是 按照 它们 的 y 坐标 排序 的 。 

这 种 策略 保证 整个 算法 是 O(N log N) 的 , 因为 只 执行 了 O(N) 的 附加 工作 。 
10.2.3 选择 问题 

选择 问题 (selection problem) 要 求 我 们 找 出 含 N AXES 中 的 第 上 个 最 小 的 元 素 。 
我 们 对 找 出 中 间 元 素 的 特殊 情况 有 着 特别 的 兴趣 ,这 种 情况 发 生 在 k= [N21 的 时 候 。 

在 第 1 章 、 第 6 章 和 第 7 章 我 们 已 经 看 到 过 选择 问题 的 几 个 解法 。 第 7 章 中 的 解法 用 到 

快速 排序 的 变 体 并 以 平均 时 间 O(N) 运 行 。 事实 上 , 它 在 Hoare 论述 快速 排序 的 原始 论文 中 
已 有 描述 。 
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虽然 这 个 算法 以 线性 平均 时 间 运 行 , 但 是 它 有 一 个 O(N?) 的 最 坏 情况 。 通过 把 元 素 排 
E, 选择 可 以 容易 地 以 O(N log N) 最 坏 情形 时 间 解 决 , 不 过 , 长 时 期 不 知道 选择 是 否 能 够 
以 O(N) 最 坏 情 形 时 间 完 成 。 在 7.7.6 节 概 述 的 快速 选择 算法 在 实践 中 是 相当 有 效 的 , 因此 
这 个 问题 主要 还 是 理论 上 的 问题 。 

我 们 知道 , 基本 的 算法 是 简单 递归 策略 。 设 N 大 于 截止 点 (cutoff point), 在 截止 点 后 元 素 
将 进行 简单 的 排序 ,wv 是 选 出 的 一 个 元 素 , 叫做 枢纽 元 (pivot) 。 其 余 的 元 素 被 放 在 两 个 集合 Si 
和 S, Po Si 含有 那些 不 大 于 v 的 元 素 , 而 S; 则 包含 那些 不 小 于 v 的 元 素 。 最 后 , 如 果 
AZ| Sy], 那么 S 中 的 第 上 个 最 小 的 元 素 可 以 通过 递归 地 计算 Si 中 第 个 最 小 的 元 素 而 找 
到 。 如果 = | Stl +1, 则 枢纽 元 就 是 第 k 个 最 小 的 元 素 。 否 则 , 在 S 中 的 第 4 个 最 小 的 元 素 
ES: 中 的 第 (4 - | Si| - 1) 个 最 小 元 素 。 这 个 算法 和 快速 排序 之 间 的 主要 区 别 在 于 , 这 里 要 
求解 的 只 有 一 个 子 问题 而 不 是 两 个 子 问题 。 

为 了 得 到 一 个 线性 算法 , 我 们 必须 保证 子 问题 只 是 原 问 题 的 一 部 分 , 而 不 仅仅 只 是 比 原 
问题 少 几 个 元 素 。 当 然 , 如 果 我 们 愿意 花费 一 些 时 间 查 找 的 话 , 那么 总 能 够 找到 这 样 一 个 元 
素 。 困难 的 问题 在 于 我 们 不 能 花费 太 多 的 时 间 寻 找 枢纽 元 。 

对 于 快速 排序 , 我 们 看 到 枢纽 元 一 种 好 的 选择 是 选取 三 个 元 素 并 取 它 们 的 中 项 。 这 就 产 
生 某 种 枢纽 元 不 太 坏 的 期 望 , 但 它 并 不 提供 一 种 保证 。 我 们 可 以 随机 选取 21 个 元 素 , 以 常数 
时 间 将 它们 排序 , 用 第 11 个 最 大 的 元 素 作为 枢纽 元 , 并 得 到 可 能 更 好 的 枢纽 元 。 然 而 , 如 果 
这 21 个 元 素 是 21 个 最 大 元 , 那么 枢纽 元 仍然 不 好 。 将 这 种 想法 扩展 , 我 们 可 以 使 用 直到 
O(N/AogN) 个 元 素 , 用 堆 排 序 以 O(N) 总 时 间 将 它们 排序 ,从 统计 的 观点 看 几乎 肯定 得 到 
一 个 好 的 枢纽 元 。 不 过 , 在 最 坏 情形 下 , 这 种 方法 行 不 通 , 因为 我 们 可 能 选择 O(N /ogN) 个 
最 大 的 元 素 , 而 此 时 的 枢纽 元 则 是 第 [ N - O(NMogN)] 个 最 大 的 元 素 , 这 不 是 N 的 一 个 常 
数 部 分 。 

然而 , 基本 想法 还 是 有 用 的 。 的确 , 我 们 将 看 到 , 可 以 用 它 来 改进 快速 选择 所 进行 的 比 
较 的 期 望 次 数 。 但 是 ,为 得 到 一 个 好 的 最 坏 情形 ,关键 想法 是 再 用 一 个 间接 层 。 我 们 不 是 从 
随机 元 素 的 样本 中 找 出 中 项 ， 而 是 从 中 项 的 样本 中 找 出 中 项 。 

基本 的 枢纽 元 选择 算法 如 下 : 

1. 把 N 个 元 素 分 成 LN/5J 组 , 5 个 元 素 一 组 , 忽略 (最 多 4 个) 剩余 的 元 素 。 

2. 找 出 每 组 的 中 项 , 得 到 LN/5j 个 中 项 的 表 M。 

3. 求 出 M 的 中 项 , 将 其 作为 枢纽 元 v 返回 。 

我 们 将 用 术语 “五 分 化 中 项 的 中 项 ”(median-of-median-of-five partitioning) 描 述 使 用 上 面 
给 出 的 枢纽 元 选择 法 则 的 快速 选择 算法 。 现 在 我 们 证 明 ,“ 五 分 化 中 项 的 中 项 ” 保证 每 个 递归 
子 问题 的 大 小 最 多 是 原 问题 的 大 约 70% 。 我 们 还 要 证 明 ,对 于 整个 选择 算法 , 枢纽 元 可 以 足 
够 快 地 算出 ,以 确保 O(N) 的 运行 时 间 。 

现在 让 我 们 假设 N 可 以 被 5 整除 , 因此 不 存在 多 余 的 元 素 。 再 设 NA 为 奇数 , 这样 M 
就 包含 奇数 个 元 素 。 我 们 将 要 看 到 ,这 将 提供 某 种 对 称 性 。 因此 为 方便 起 见 我 们 假设 N 为 
10k +5 的 形式 。 我们 还 要 假设 所 有 的 元 素 都 是 互 异 的 。 实际 的 算法 必须 保证 能 够 处 理 该 假设 
不 成 立 的 情况 。 图 10-36 指出 当 N= 45 时 , 枢纽 元 如 何 能 够 选 出 。 

在 图 10-36 F, v 代表 该 算法 选 出 作为 枢纽 元 的 元 素 。 由 于 是 9 个 元 素 的 中 项 , 而 我 
们 假设 所 有 元 素 互 异 , 因此 必然 存在 4 个 中 项 大 于 v 以 及 4 个 小 于 v. 我 们 分 别 用 L 和 S K 
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示 这 些 中 项 。 考 虑 具有 一 个 大 中 项 (上 型 ) 的 五 元 素 组 。 该 组 的 中 项 小 于 组 中 的 另 两 个 元 素 且 
大 于 组 中 的 另 两 个 元 素 。 我 们 将 令 H 代表 那些 巨型 元 素 。 存在 一 些 已 知 大 于 一 个 大 中 项 的 元 
素 。 类 似 地 ，T 代表 那些 小 于 一 个 小 中 项 的 元 素 。 存 在 10 - H 型 的 元 素 : 具有 L 型 中 项 的 
每 组 中 有 两 个 ,v 所 在 的 组 中 有 两 个 。 类 似 地 , 存在 10 个 T 型 元 素 。 


5 元 素 的 排序 各 组 





Medians 














图 10-36 枢纽 元 的 选择 


L 型 元 素 或 H 型 元 素 保证 大 于 v, 而 S 型 元 素 或 型 元 素 保 证 小 于 v。 于 是 在 我 们 的 问 
题 中 保证 有 14 个 大 元 素 和 14 个 小 元 素 。 因 此 , 递归 调用 最 多 可 以 对 45 - 14 - 1= 30 个 元 素 
进行 。 

让 我 们 把 分 析 推广 到 对 形 如 10k + 5 的 一 般 的 N 的 情形 。 在 这 种 情况 下 , 存在 k 个 L 型 
HEM 个 S 型 元 素 。 存在 2k+2 个 H 型 元 素 , 还 有 2k+2 个 人 型 元 素 。 因 此, 有 3k+2 个 
元 素 保证 大 于 v 以 及 3k+2 个 元 素 保证 小 于 v。 于 是 在 这 种 情况 下 递归 调用 最 多 可 以 包含 
Tk*2 < 0.7N PICK. 如 果 N 不 是 10k + 5 的 形式 , 类 似 的 论证 仍 可 进行 而 不 影响 基本 
结果 。 

剩 下 的 问题 是 确定 得 到 枢纽 元 的 运行 时 间 的 界 。 有 两 个 基本 的 步骤 。 我 们 可 以 以 常数 时 
间 找到 5 元 素 的 中 项 。 例如, 不 难 用 8 次 比较 将 5 个 元 素 排 序 。 我 们 必须 进行 LN /5J 次 这 样 
的 运算 , 因此 这 一 步 花费 O(N) 时 间 。 然 后 我 们 必须 计算 LN/5J 元 素 组 的 中 项 。 明显 的 做 法 
是 将 该 组 排序 并 返回 中 间 的 元 素 。 但 这 需要 花费 OCLNZS ] log LN/SJ) = O(N log N) 的 时 
间 , 因此 不 能 这 么 做 。 解 决 方法 是 对 这 LN /S | 个 元 素 递归 调用 选择 算法 。 

现在 对 基本 算法 的 描述 已 经 完成 。 如 果 想 有 一 个 实际 的 实现 方法 , 那么 还 有 某 些 细节 仍 
然 需要 填补 。 例 如 , 重复 元 必须 要 正确 地 处 理 , 该 算法 需要 截止 点 足够 大 以 确保 递归 调用 能 
够 进行 。 由 于 涉及 到 相当 大 量 的 系统 开销 , 而 且 该 算法 根本 不 实用 ， 因此 我 们 将 不 再 描述 任 
何 细节 。 即 使 如 此 , 该 算法 从 理论 的 角度 来 看 仍然 是 一 种 突破 ， 为 其 运行 时 间 在 最 坏 情形 
下 是 线性 的 , 正如 下 面 的 定理 所 述 。 

定理 10.9 

使 用 “五 分 化 中 项 的 中 项 ”的 快速 选择 算法 的 运行 时 间 为 O(N)。 

证 阴 : 

该 算法 由 大 小 为 0.7N 和 0.2N 的 两 个 递归 调用 以 及 线性 附加 工作 组 成 。 根据 定理 
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10.8, 其 运行 时 间 是 线性 的 。 
降低 比较 的 平均 次 数 

分 治 算法 还 可 以 用 来 降低 选择 算法 预计 所 需要 的 比较 次 数 。 让 我 们 看 一 个 具体 的 例子 。 
设 有 1 000 个 数 的 集合 S 并 且 要 寻找 其 中 第 100 个 最 小 的 数 X, 我们 选择 SHTES, 它 由 
100 个 数组 成 。 我 们 期 望 X 的 值 在 大 小 上 类 似 于 S "的 第 10 个 最 小 的 数 。 尤其 是 S "的 第 5 个 
最 小 的 数 几乎 肯定 小 于 X, 而 S "的 第 15 个 最 小 的 数 几 乎 肯定 大 于 Xo 

更 一 般 地 , 从 N 个 元 素 选取 s 个 元 素 的 样本 S'。 令 6 是 某 个 数 , 后 面 我 们 将 选择 它 使 得 把 
该 过 程 所 用 的 平均 比较 次 数 最 小 化 。 我 们 找 出 S" 中 第 (w = bs /N 6) 个 和 第 (v2= kAN + 6) 
个 最 小 的 元 素 。 几 乎 可 以 肯定 S 中 的 第 k 个 最 小 元 素 将 落 在 w 和 v ZE, 因此 留 给 我 们 的 
是 关于 26 个 元 素 的 选择 问题 。 第 上 个 最 小 元 素 不 落 在 这 个 范围 内 的 概率 很 低 ， 而 我 们 有 大 
量 的 工作 要 做 。 不 过 , RE s 和 6 选择 得 好 , 根据 概率 论 的 定律 我 们 可 以 肯定 , 第 二 种 情形 对 
于 整体 工作 不 会 有 不 利 的 影响 。 

如 果 进 行 分 析 , 那么 我 们 就 会 发 现 , # s= N?log N M= N'2log ^ N, 则 期 望 的 比 
较 次 数 为 +k + O(N?3log!3N), 除 低 次 项 外 它 是 最 优 的 。( 如 果 > N2, 那么 我 们 可 以 
考虑 查找 第 (N 下 ) 个 最 大 元 素 的 对 称 问题 。) 

大 部 分 的 分 析 都 容易 进行 。 最 后 一 项 代表 进行 两 次 选择 以 确定 vi 和 v 的 代价 。 假 设 采 
用 合理 聪明 的 策略 , 则 划分 的 平均 代价 等 于 N 加 上 vw 在 S 中 的 期 望 阶 (expected rank)， 即 
N+k+ O(N3/s)。 如 果 第 个 元 素 在 S' 中 出 现 , 那么 结束 算法 的 代价 等 于 对 S 进行 选择 
的 代价 , BD O(s)。 如 果 第 个 最 小 元 素 不 在 S' 中 出 现 , 那么 代价 就 是 O(N)。 然 而 , * AS 
已 经 被 选取 以 保证 这 种 情况 以 非常 低 的 概率 o(1/N) 发 生 , 因此 该 可 能 性 的 期 望 代价 是 o(1)， 
它 当 NN 越 来 越 大 时 趋向 于 0。 一 种 精确 的 计算 留 作 练习 10.21。 

这 个 分 析 指 出 , 找 出 中 项 平均 大 约 需 要 1.5N 次 比较 。 当 然 , 该 算法 为 计算 s 需要 浮 点 
运算 , 这 在 一 些 机 器 上 可 能 使 该 算法 减 慢 速度 。 不 过 即使 是 这 样 ， 经 验 已 经 证 明 , 若 能 正确 
实现 , 则 该 算法 完全 能 够 比 得 上 第 7 章 中 快速 选择 实现 方法 。 

10.2.4 ”一些 运算 问题 的 理论 改进 

在 这 一 节 我 们 描述 一 个 分 治 算法 , 该 算法 是 将 两 个 N 位 数 相 乘 。 我 们 前 面 的 计算 模型 假 
设 乘法 是 以 常数 时 间 完成 , 因为 乘 数 很 小 。 对 于 大 的 数 , 这 个 假设 不 再 有 效 。 如 果 我 们 以 乘 
数 的 大 小 来 衡量 乘法 , 那么 自然 的 乘法 算法 花费 平方 时 间 ， 而 分 治 算法 则 以 亚 二 次 (sub- 
duadratic) 时 间 运 行 。 我 们 还 介绍 经 典 的 分 治 算法 ， 它 以 亚 立 方 时 间 将 两 个 N x N 矩阵 相 乘 。 
整数 相 乘 

设 我 们 想 要 将 两 个 N 位 数 X 和 Y HUE. 如果 X 和 Y 恰好 有 一 个 是 负 的 ， 那么 结果 就 是 
负 的 ;否则 结果 为 正 数 。 因 此 , 我 们 可 以 进行 这 种 检查 然后 假设 X，Y > 0。 几乎 每 一 个 人 在 
手 算 乘 法 时 使 用 的 算法 都 需要 B@(N?) 次 操作 , 这 是 因为 X 中 的 每 一 位 数字 都 要 被 Y 的 每 一 
位 数字 去 乘 的 缘故 。 

如 果 X —61 438 521 而 Y=94736 407, 那么 XY= 5 820 464 730 934 047. 让 我 们 把 X AI Y 
拆 成 两 半 ， 分 别 由 最 高 几 位 和 最 低 几 位 数字 组 成 。 此 时 ，Xi = 6143, X«- 8521, Y= 9473， 
Y =6 407。 我 们 还 有 X= XL10* + Xr 以 及 Y= YL10* + Yk。 由 此 得 到 

XY = XLYLIO + (X, Yg + XRYL)10 + XRYR 
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注意 , 这 个 方程 由 4 次 乘法 组 成 , 即 X, Y,, X, Ya, XRY, 和 XRYR, 它们 每 一 个 都 是 原 
问题 大 小 的 一 半 (NZ 数字 )。 用 105 和 10* 作 乘 法 实际 就 是 添加 一 些 0, 这 及 其 后 的 几 次 加 
法 只 是 添加 了 O(N) 附 加 的 工作 。 如 果 我 们 递归 地 使 用 该 算法 进行 这 4 项 乘法 , 在 一 个 适当 
的 基本 情形 下 停止 , 那么 我 们 得 到 递归 

T(N)=4T(N/2)+ O(N) 
从 定理 10.6 我 们 看 到 ，T(N) = O(N?), 因此 很 不 幸 我 们 没有 改进 这 个 算法 。 为 了 得 到 
-个 亚 二 次 的 算法 , 我 们 必须 使 用 少 于 4 次 的 递归 调用 。 关键 的 观察 结果 是 
X,Yg + XRYL 7 (X, — Xr) (Yr- Yi) + XLYL + XRYR 

于 是 , 我们 不 用 两 次 乘法 来 计算 10* 的 系数 , 而 可 以 用 一 次 乘法 再 加 上 已 经 完成 的 两 次 

乘法 的 结果 。 图 10-37 演示 如 何 只 需求 解 3 次 递归 子 问题 。 















































m ] 
功能 & WAAR | 
xX 6143 赋值 
Xe 8521 赋值 | 
Y 9475 Mut 
Yr 6407 赋值 
Dy = Xi- Xn -2378 ON) 
Dis Y. -Y; -3066 OIN) 
XY 58 192 639 TNI) 
XaYa 54 594 047 TINI) 
D,D: 7 290 948 TINI) 
Dy = DiD: + X Yit XaYs 120077 634 OIN) 
XaYr $4 594 047 上 面 已 算出 | 
D510* 1200 776 340 000 OIN) 
x Yao 5 819 263 900 000 000 OIN) 
XLY L108 + Di104 + XaYk S820464 730 934 047 ON) 

















图 10-37 分 治 算法 的 执行 情况 


容易 看 到 现在 的 递归 方程 满足 
T(N)=3T(N/2)+ O(N) 

从 而 我 们 得 到 TON) = ONW) = O( N13)。 为 完成 这 个 算法 ,我 们 必须 要 有 一 个 基准 情 
况 , 该 情况 可 以 无 须 递 归 而 解决 。 

当 两 个 数 都 是 一 位 数字 时 , 我 们 可 以 通过 查 表 进 行 乘法 : 若 有 一 个 乘 数 为 0, 则 我 们 返回 
0. 假如 我 们 在 实践 中 要 用 这 种 算法 ,那么 我 们 将 选择 对 机 器 最 方便 的 情况 作为 基本 情况 。 

虽然 这 种 算法 比 标准 的 二 次 算法 有 更 好 的 渐进 性 能 , 但 是 它 却 很 少 使 用 ,因为 对 于 小 的 
N 开销 大 ,而 对 大 的 N 甚至 还 存在 更 好 的 一 些 算法 。 这 些 算法 也 广泛 利用 了 分 治 算法 。 
矩阵 乘法 

一 个 基本 的 数值 问题 是 两 个 矩阵 的 乘法 。 图 10-38 给 出 一 个 简单 的 O(N?) 算 法 计算 
C-AB, 其 中 A、B 和 C EDEN x N 矩阵。 该 算法 直接 来 自 于 和 矩阵 乘法 的 定义 。 为 了 计算 
C, 我 们 计算 A 的 第 ; 行 和 B 的 第 j 列 的 点 乘 。 按照 通常 的 惯例 ， 数组 下 标 均 从 0 开始 - 
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/* Standard matrix multiplication */ 

/* Arrays start at 0 */ 

void 

MatrixMultiply( Matrix A, Matrix B, Matrix C, int N ) 


int i, i, ki 











10-38 简单 的 O(N?) EERIE 


, 长 期 以 来 曾 认为 矩阵 乘法 是 需要 工作 量 Q(N3) 的 。 然 而 , 在 20 世纪 60 年 代 末 Strassen 
BI) 指出 了 如 何 打破 Q(N3) 的 屏障 。Strassen 算法 的 基本 想法 是 把 每 一 个 矩阵 都 分 成 4 块 ， 如 图 
10-39 所 示 。 此 时 容易 证 明 





11. [cu ou) 














图 10-39 把 AB - C 分 解 成 4 块 乘法 


Cii 7 AiaBia + 412B2.41 

Ci2= AiaBio * AioBo 

C24 7 AzaBia + AooBza 

C257 A21B1,2 + A2,2B2,2 
作为 一 个 例子 , 为 了 进行 乘法 AB 


B4166693 
_|1257|4s31 
2 
35 14H 


我 们 定义 下 列 8 个 NA x N22 ABER: 


oP) sede] oe meii 


Au; 3 Aza | M a7; i] B22= (4 i 


此 时 ,我 们 可 以 进行 8 个 N 2x N72 阶 矩 阵 的 乘法 和 4 个 N27 N Z2 阶 矩 阵 的 加 法 。 这 些 
加 法 花费 O(N2) 时 间 。 如 果 递 归 地 进行 矩阵 乘法 ,那么 运行 时 间 满 足 
T(N)=8T(N2) + O(N?) 
从 定理 10.6 我 们 看 到 TUN) = O(N3), 因此 我 们 没有 作出 改进 。 如 同 我 们 在 整数 乘法 


看 到 的 我们 必须 把 子 问 题 的 个 数 简化 到 8 个 以 下 。Strassen 使 用 了 类 似 于 整数 乘法 分 治 算 
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法 的 一 种 策略 并 指出 如 何 仔细 地 安排 计算 而 只 使 用 7 次 递归 调用 。 这 7 个 乘法 是 
M,-(Ai2-Az3)(B;4 + B2.2) 
M2=(A1.1+ 42.2) (Bi, + B22) 
M3=(A1.1- A21) (Bi + Bi) 
Mic (Aii t A12) B22 
Ms= Aia (8) 7 B22) 
Me 7 Asa( B4 7 Bia) 
M3= (Axa + A22) Bia 
一 旦 执行 这 些 乘 法 , 则 最 后 答案 可 以 通过 下 列 8 次 加 法 得 到 
Cı „=M; + Mz~ Mi* Mo 
C12= Ms+ Ms 
C2.1= Me+ M; 
C22= Mı- M3+ Ms— M; 
直接 验证 这 种 机 敏 的 安排 得 到 期 望 的 效果 。 现 在 运行 时 间 满 足 递 归 关 系 
T(N)=7T(N2) + O(N?) 
这 个 递归 关系 的 解 为 T(N)= OCN7) = O(N? 41), 

如 往常 一 样 , 有 些 细节 需要 考虑 , 如 当 N 不 是 2 的 军 时 的 情况 , 不 过 还 是 有 些 根 本 性 小 
lih, Strassen 算法 在 N 不 够 大 时 不 如 矩阵 直接 相 乘 。 它 也 不 能 推广 到 矩阵 是 稀疏 ( 即 含有 
许多 的 0 元 素 ) 的 情况 ,而 且 它 还 不 容易 并 行 化 。 当 用 浮 点 数 运算 时 , 在 数值 上 它 不 如 经 典 的 
算法 稳定 。 因 此 , 它 只 有 有 限 的 适用 性 。 然 而, 它 象征 着 重要 理论 的 里 程 碑 并 证 明了 , 在 计算 
机 科学 像 在 许多 其 他 领域 一 样 ,即使 一 个 问题 看 似 具有 固有 的 复杂 性 , 但 在 被 证 明 以 前 却 始 
终 不 可 定论 。 


10.3 动态 规划 


在 前 一 节 , 我 们 看 到 一 个 可 以 被 数学 上 递归 表示 的 问题 也 可 以 表示 成 一 个 递归 算法 ,在 
许多 情形 下 对 朴素 的 穷 举 搜索 得 到 显著 的 性 能 改进 。 

任何 数学 递归 公式 都 可 以 直接 翻译 成 递归 算法 , 但 是 基本 现实 是 编译 器 常常 不 能 正确 对 
待 递归 算法 , 结果 导致 低 效 的 算法 。 当 我 们 怀疑 很 可 能 是 这 种 情况 时 , 我 们 必须 再 给 编译 器 
提供 一 些 帮助 , 将 递归 算法 重新 写成 非 递归 算法 ， 让 后 者 把 那些 子 问题 的 答案 系统 地 记录 在 
一 个 表 内 。 利 用 这 种 方法 的 一 种 技巧 叫做 动态 规划 (dynamic programming) 
10.3.1 用 一 个 表 代 蔡 递 归 

在 第 2 章 我 们 看 到 , 计算 斐 波 那 契 数 的 自然 递归 程序 是 非常 低 效 的 。 回忆 图 10-40 所 示 
的 程序 的 运行 时 间 T(N) 满 足 T(N) > TON -1D)+TCN-2)。 由 于 了 T(N) 作 为 斐 波 那 契 数 
满足 同样 的 递归 关系 并 具有 同样 的 初始 条 件 , 因此 ,事实 上 T(N) 是 以 与 斐 波 那 契 数 相同 的 
速度 在 增长 从 而 是 指数 级 的 。 

另 一 方面 , 由 于 计算 Fw 所 需要 的 只 是 Fy-1 和 Fx-2， 因此 我 们 只 需要 记录 最 近 算出 的 
两 个 斐 波 那 契 数 。 这 导致 图 10-41 中 的 O(NN) 算 法 。 
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/* Compute Fibonacci numbers as discussed in Chapter 1 */ 


| ine 
| Fib( int N ) 
d 
if(N <= 1) 
| return 1; 
else 
| return Fib( N - 1) + FibCN - 2); 
| 





} 





图 10-40 计算 斐 波 那 契 数 的 低 效 算法 





int 
Fibonacci( int N ) 
[ 

int i, Last, NextToLast, Answer; 


ifCN 1) 
return 1; 


Last = NextTolast = 1; 

for( i = 2; P <= N; i++ ) 

{ 
Answer = Last + NextToLast; 
NextToLast = Last; 
Last = Answer; 

) 


return Answer; 








} 





图 10-41 计算 非 波 那 各 数 的 线性 算法 


递归 算法 如 此 慢 的 原因 在 于 算法 模仿 了 递归 。 为 了 计算 Fy, 存在 一 个 对 Fy-1 和 FN 
的 调用 。 然而 , 由 于 Fy- 递归 地 对 Fx-2 和 Fx-3 进 行 调用 , 因此 存在 两 个 单独 的 计算 F、 
的 调用 。 如 果 探 试 整个 算法 ,那么 我 们 可 以 发 现 , Fy_3 被 计算 了 3 次, Fy-s 计 算 了 5 次 , 而 
Fs Ue Stk, 等 等 。 如 图 10-42 所 示 , 元 余 计算 的 增长 是 爆炸 性 的 。 如 果 编译 器 的 递归 模 
拟 算法 要 是 能 够 保留 一 个 预先 算出 的 值 的 表 而 对 已 经 解 过 的 子 问题 不 再 进行 递归 调用 , 那么 
(SD ”这 种 指数 式 的 爆炸 增长 就 可 以 避免 。 这 就 是 为 什么 图 10-41 中 的 程序 如 此 有 效 的 原因 。 








Bao ~n 
u sr n^ be 
p^ RH R TI p B FY FO 
k^ Ct BÓ Co FY FO FY FO 


图 10-42 MARIA RA ITH 


作为 第 二 个 例子 , 我们 看 到 第 7 章 中 如 何 求解 递归 关系 CON) = (2/N) NCU) + 
N. 其 中 C(O) = 1 。 假设 我 们 想 要 检查 所 得 到 的 解 是 否 在 数值 上 是 正确 的 ,此 时 我 们 可 以 编 
写 图 10-43 中 的 简单 程序 来 计算 这 个 递归 问题 。 
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double 
Eval( int N ) 
P es 
int i; 
double Sum; 


if(N == 0) 
return 1.0; 
else 
i 
Sum - 0.0; 
for( i = 0; i < Ni i++) 
Sum += Eval( i ); 
return 2.0 * Sun / N + N; 
) 
} 








图 10-43 计算 CCN) = (2/N) ANCO) + N 的 值 的 递归 程序 


这 里 ,递归 调用 又 做 了 重复 性 的 工作 。 在 这 种 情况 下 , 运行 时 间 T(N) 满 足 TON) = 
NN UG) +N ,因为 如 图 10-44 BE, 对 于 从 0 到 N — 1 的 每 一 个 值 都 有 一 个 (直接 的 ) 弟 
归 调用 , 外 加 O(N) 的 附加 工作 (在 图 10-44 所 示 的 树 中 我 们 还 在 哪里 看 到 ?)。 对 T(N) 求 
解 我 们 发 现 , 它 的 增长 是 指数 式 的 。 通 过 使 用 一 个 表 , 我 们 得 到 图 10-45 中 的 程序 。 这 个 程 
序 避 免 了 宛 余 的 递归 调用 而 以 O(N?) 运 行 。 它 并 不 是 一 个 完美 的 程序 ,作为 练习 ,你 要 对 它 
做 些 简单 修改 , 把 它 的 运行 时 间 简 化 到 O(N)。 


一 一 人 
CR cx T pan 
"a So e. No ei s 


a PN of NS UN \ 


ci cry co co cí co co co 


ZN ON \ \ 
ci Co Co co co 


图 10-44 ”跟踪 函数 Eval 中 的 递归 计算 


10.3.2 ”矩阵 冬 法 的 顺序 安排 

设 给 定 四 个 矩阵 A. B. CHD, A 的 维 数 = 50x10, B 的 维 数 = 10x40, C 的 维 数 = 
40x30, D 的 维 数 = 30x 5。 虽 然 矩 阵 乘法 运算 是 不 可 交换 的 , 但 是 它 是 可 结合 的 , 这 就 意 
味 着 矩阵 的 乘积 ABCD 可 以 以 任意 顺序 添加 括号 然后 再 计算 其 值 。 将 两 个 阶 数 分 别 为 p xg 
和 4 x 的 矩阵 显 性 相 乘 , 使 用 par 次 标量 乘法 。( 由 于 使 用 诸如 Strassen 算法 这 样 的 理论 上 
优越 的 算法 并 没有 明显 地 改变 我 们 要 考虑 的 问题 , 因此 我 们 将 假设 这 个 性 能 的 界 。 ) 那 么 , it 
算 ABCD 需要 执行 的 三 个 矩阵 乘法 的 最 好 方式 是 什么 ? 

在 四 个 矩阵 的 情况 下 , 通过 穷 举 搜索 求解 这 个 问题 是 简单 的 ， 因为 只 有 五 种 方式 来 给 乘 
法 排 顺序 。 我 们 对 每 种 情况 计算 如 下 : 

。(A((BC)D)): 计算 BC 需要 10x40x30= 12 000 KA. 计算 (BC)D 的 值 需要 

12 000 次 乘法 计算 BC, 外 加 10 x 30x 5 — 1500 次 乘法 , 合计 13 500 次 乘法 。 R 
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(4((BC)D)) 的 值 需要 13 500 次 乘法 计算 ( BC)D, 外 加 50x 10 x 5-2 500 次 乘法 ， 
总 计 16000 次 乘法 。 





double 

Eval( int N ) 

{ 
int i, j; 
double Sum, Answer; 
double *C; 


C = malloc( sizeof( double ) * ( N +1) 5: 
if( C -= NULL ) 
FatalError( "Out of space!!!" ); 


Cl 0] = 1.0; 

for( i = 1; i <s N; i++) 

| { 

Sum = 0.0; 

for( j= 0; j <i; je) 
Sum += CL j ); 

Cli} = 2.0 * Sum / i + i; 





) 


Answer = CU N J; 
free( C ); 


return Answer; 
) 











图 10-45. 使 用 一 个 表 来 计算 CCN) = 2/N CG) + N 的 值 


(4(B(CD))): 计算 CD 需要 40x30x5=6000 次 乘法 。 计算 BCD ) 的 值 需要 6 000 
次 乘法 计算 CD, 外 加 10 x 40 x 5 = 2 000 次 乘法 , 合计 8 000 次 乘法 。 OR CA CB 
(CD))) 的 值 需要 8 000 次 乘法 计算 B(CD), 外 加 50 x 10x5=2 500 次 乘法 ,总 计 
10 500 次 乘法 。 
((AB)(CD)): 计算 CD 需要 40x30x5=6 000 次 乘法 。 计算 AB 需要 50x10x40 
=20 000 次 乘法 。 求 ((4B)(CD ) ) 的 值 需要 6 000 次 乘法 计算 CD, 20 000 次 乘法 计 
算 AB, 外 加 50x40x5=10 000 次 乘法 ,总计 36 000 次 乘法 。 
。(((4B)C)D): 计算 AB 需要 50x 10x 40 = 20 000 次 乘法 。 计 算 (4B)C 的 值 需要 
20 000 次 乘法 计算 AB, 外 加 50 x 40 x 30 = 60 000 次 乘法 , 合计 80 000 次 乘法 。 求 
(((4B)C)D) 的 值 需要 80 000 次 乘法 计算 (4B)C, 外 加 50x30x5=73500 次 乘法 ， 
总 计 87 500 次 乘法 。 
((A(BC))D): 计算 BC 需要 10x 40x30= 12 000 次 乘法 。 计算 A( BC) 的 值 需要 
12 000 次 乘法 计算 BC, 外 加 50 x 10 x 30 = 15 000 次 乘法 , 合计 27 000 次 乘法 。 R 
((4(BC))D) 的 值 需要 27 000 次 乘法 计算 A(BC), 外 加 50x 30x 5—7 500 次 乘法 ， 
总 计 34 500 次 乘法 。 

上 面 的 计算 表明 , 最 好 的 排列 顺序 方法 大 约 只 用 了 最 坏 的 排列 顺序 方法 的 九 分 之 一 的 乘 
法 次 数 。 因 此 , 进行 一 些 计算 来 确定 最 优 顺序 还 是 值得 的 。 不 幸 的 是 , 一 些 明显 的 仿 禁 算法 
似乎 都 用 不 上 , 而 且 可 能 的 顺序 的 个 数 增长 很 快 。 设 我 们 定义 T(N) 是 顺序 的 个 数 。 此 时 ， 
T(1)=T(2)=1, T(3)=2, 而 T(4) - 5, 正如 我 们 刚刚 看 到 的 。 一 般 地 ， 
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T(N) = Yro T(N- i) 


为 此 , WOBPEA A1, A;,…, An, BREGEGIRIEE CAS "ADCA; a Assam Axe IE 
时 , 有 TOERE Ar “A;) 且 有 TON 一 站 种 方法 计算 (Ai-14i,2…AN)。 因 此 , 对 
于 每 个 可 能 的 存在 TU TON 一 i) 种 方法 计算 (A1A2…A;)(Ai.1A4i+2"…AN)。 

这 个 递归 式 的 解 是 著名 的 Catalan 数 , 该 数 呈 指数 增长 。 因 此 , 对 于 大 的 N, 穷 举 搜索 所 
有 可 能 的 排列 顺序 的 方法 是 不 可 行 的 。 然 而 , 这 种 计数 方法 为 一 种 解法 提供 了 基础 该 解法 
基本 上 是 优 于 指数 的 。 对 于 ISISN, 令 c; 是 矩阵 4, 的 列 数 。 于 是 A; 有 -1 行 , 否则 矩阵 
乘法 是 无 法 进行 的 。 我们 将 定义 co 为 第 一 个 矩阵 A, 的 行 数 。 

BE mius gigs EET E ERIE ASA Lea Arigi -1 Aui 所 需要 的 乘法 次 数 。 为 方便 起 
JE. mun ug 705 HRE RIFE IE CAL A Ae Arg), 其 中 Left Si < Right. 此 时 
所 用 的 乘法 次 数 为 mre misa, Rie + CLefe-1 Crio 3X TRAY IMS AGERE CAL AL. 
CA anm Arie ) 以 及 它们 的 乘积 所 需要 的 乘法 。 

如 果 我 们 定义 Mn .rin 为 在 最 优 排列 顺序 下 所 需要 的 乘法 次 数 , 那么 , 若 Left < 
Right , 则 

Men giu = , min. | Mg, + Mi «1, Rie + Chef - 1 CIRigh | 
这 个 方程 意味 着 , 如 果 我 们 有 乘法 rr…A4Rawr 的 最 优 的 乘法 排列 顺序 , 那么 子 问题 AL 
Ay 和 A; ,1…ARisn 就 不 能 次 最 优 地 执行 。 这 是 很 清楚 的 , 因为 否则 我 们 可 以 通过 用 最 优 的 计 
算 代替 次 最 优 计算 而 改进 整个 结果 。 

这 个 公式 可 以 直接 翻译 成 递归 程序 , 不 过 ,正如 我 们 在 最 后 一 节 看 到 的 , 这 样 的 程序 将 
是 明显 低 效 的 。 然 而 , 由 于 大 约 只 有 Mun gu f NT 72 个 值 需要 计算 , 因此 显然 可 以 用 一 个 
表 来 存放 这 些 值 。 进 一 步 的 考查 表明 , 如 果 Right — Left =k, 那么 只 有 在 Mep. riem BIA 
中 所 需要 的 那些 值 M. ,满足 y - x < ko 这 告诉 我 们 计算 这 个 表 所 需要 使 用 的 顺序 。 

如 果 除 最 后 答案 My, x 外 我 们 还 想 要 显示 实际 的 乘法 顺序 , 那么 我 们 可 以 使 用 第 9 章 中 
最 短路 径 算法 的 思路 。 无论 何 时 改变 Mop pigs 我 们 都 要 记录 i 的 值 , 这 个 值 是 重要 的 。 由 
此 得 到 图 10-46 所 示 的 简单 程序 。 

虽然 本 章 重点 不 是 编程 , 但 是 , 我 们 还 是 要 说 , 许多 编程 人 员 倾 向 于 把 变量 名 称 减 缩 成 
一 个 字母 , 这 并 没有 什么 好 处 。 可 是 这 里 c<，i 和 kk 却 是 作为 单字 母 变量 使 用 的 , 这 是 因为 它 
们 与 我 们 描述 算法 所 使 用 的 名 字 是 一 致 的 ,是 非常 数学 化 的 。 不 过 , 一 般 最 好 避免 字母 1 作 
为 变量 名 , ERO "I" 非常 像 “1”( 阿 拉 伯 数字 ), 如 果 你 犯 了 一 个 转换 错误 , 那么 可 能 会 陷入 
非常 困难 的 调试 麻烦 中 。 

回 到 算法 问题 上 来 。 这 个 程序 包含 三 重 谋 套 循环 , 容易 看 出 它 以 O(N? ) 时 间 运行 。 参 考 
文献 描述 了 一 个 更 快 的 算法 ,但 由 于 执行 具体 矩阵 乘法 的 时 间 仍 然 很 可 能 会 比 计算 最 优 顺序 
的 乘法 的 时 间 多 得 多 , 因此 这 个 算法 还 是 相当 实用 的 。 

10.3.3 ”最 优 二 叉 查找 树 

第 二 个 动态 规划 的 例子 考虑 下 列 输入 : 给 定 一 列 单词 wy, we. wy 和 它们 出 现 的 固 
定 的 概率 p1, pas > PNo 问题 是 要 以 一 种 方法 在 一 棵 二 又 查找 树 中 安放 这 些 单词 使 得 总 的 
期 望 存 取 时 间 最 小 。 在 一 棵 二 又 查找 树 中 , 访问 深度 d 处 的 一 个 元 素 所 需要 的 比较 次 数 是 
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dd +1, 因此 如 果 zu 被 放 在 深度 d; 上 , ARTE SY 1 d) 极 小 化 。 


J 





/* Compute optimal ordering of matrix multiplication */ 

/* C contains number of columns for each of the N matrices */ 
| Z$ CL 0 J is the number of rows in matrix 1 */ 

| 7+ Minimum number of multiplications is left in M[ 1J[ N ) */ 
| /* Actual ordering is computed via */ 

/* another procedure using LastChange */ 

/* M and LastChange are indexed starting at 1, instead of 0 */ 
/* Note: Entries below main diagonals of M and LastChange */ 
/* are meaningless and uninitialized */ 


void 
| Optmatrix( const long CE J, int N, 

TwoDimArray M, TwoDimArray LastChange ) 
{ 


int i, k, Left, Right; 
long ThisM; 


for( Left = 1; Left <= N; Left++ ) 
ME Left ][ Left J = 0; 
forC k= l; k <N; ket) /* k ds Right - Left */ 
for( Left = 1; Left <= N - k; Left++ ) 
{ 
/* For each position */ 
Right = Left + k; 
ML Left ][ Right ] = Infinity; 
for( i = Left; 1 < Right; i++ ) 
{ 
ThisM = M[ Left J[ i J + MÇ i + 1 J[ Right ] 
+ CL Left - 1] * CL i} * CE Right J; 
if( ThisM < M[ Left ][ Right ] ) 
t 


/* Update min */ 
MC Left ][ Right } = ThisM; 
LastChange[ Left ][ Right ] = i; 
) 
) 
) 











[810-46 找 出 矩阵 乘法 最 优 顺序 的 程序 





























作为 一 个 例子 , 图 10-47 表示 在 某 段 课文 中 的 七 个 单词 以 及 它 f 
们 出 现 的 概率 。 图 10-48 显示 三 棵 可 能 的 二 叉 查 找 树 。 它 们 的 查找 | ry 
代价 如 图 10-49 所 示 。 - gas 
第 一 棵 树 是 使 用 贪 禁 方法 形成 的 。 存 取 概率 最 高 的 单词 被 放 在 || ee oas 
根 节点 处 。 然 后 左右 子 树 递归 形成 。 第 二 棵 树 是 理想 平衡 查找 树 。| me | oo 
这 两 梨 树 都 不 是 最 优 的 ,由 第 三 棵 树 的 存在 可 以 证 实 。 我 们 由 此 看 (me LO 
到 明显 的 解法 都 是 行 不 通 的 。 eo Nes 


乍 看 有 些 奇怪 ， 因 为 问题 看 起 来 很 像 是 构造 Huffman 编码 树 ， 村 问题 的 样本 输入 
正如 我 们 已 经 看 到 的 , 它 能 够 用 贪 禁 算法 求解 。 构 造 一 棵 最 优 二 叉 
在 找 树 更 困难 , 因为 数据 不 只 限于 出 现在 树叶 上 , 树 还 必须 满足 二 又 查找 树 的 性 质 。 

动态 规划 解 由 两 个 观察 结论 得 到 。 再 次 假设 我 们 想 要 把 (排序 的 ) 一 些 单词 wur. 
wuna seve acis WR 放 到 一 棵 二 又 查找 树 中 。 设 最 优 二 叉 查 找 树 以 w 作为 根 ,其 
中 Left <i< Right. 此 时 左 子 树 必须 包含 wry os w- 而 右 子 树 必须 包含 wi = 
ww (根据 二 叉 查 找 树 的 性 质 )。 再 有 ， 这 两 棵 子 树 还 必须 是 最 优 的 ,因为 否则 它们 可 以 用 最 
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优 子 树 代替 ,这 将 给 出 关于 wp., wren ERRORES Ale, 我 们 可 以 为 最 优 二 叉 查找 树 的 
开销 Crepe, Riww 编 写 一 个 公式 - 图 10- 50 可 能 是 有 帮助 的 - 


(n 起 D 
Q © Gay w Gf [0 
NEMO Oe Q0 © WE & 
@) & @) 


图 10-48 对 于 上 表 中 数据 的 三 个 可 能 的 二 又 查找 树 
































输入 Ll pe pes 

单词 概率 访问 代价 访问 代价 访问 代价 

"n Pi Once Sequence Once Sequence Once Sequence 

a 022 2 om 3 066 2 04 

am — 018 4 02 2 03% 3 054 
and 020 3 060 3 00 1 02 
eg 005 4 03 1 00 3 — 05 

if 025 1 025 3 075 2 0.50 
the 002 3 006 2 — 004 4 — 008 
wo — 008 2 06 3 024 3 02 
总 计 — 100 2.43 2.70 215 jJ 








图 10-49 三 棵 二 叉 查 找 树 的 比较 





图 10-50 最 优 二 叉 查 找 树 的 构造 


如 果 Left > Right ,那么 树 的 开销 是 0; 这 就 是 NULL 情形 , 对 于 二 又 查找 树 我 们 总 有 这 
种 情形 否则, 根 花费 p;。 左 子 树 的 代价 相对 于 它 的 根 为 Cp, as 右 子 树 相对 于 它 的 根 的 
代价 为 Ci- Riro 如 图 10-50 所 示 , 这 两 棵 树 的 每 个 节点 从 w 开始 都 比 从 它们 对 应 的 根 开 


始 深 一 层 ， 因此 , 我们 必须 加 Sp 27 py 。 于 是 得 到 如 下 公式 


j= is 


i 
> zoom £C ae Ce D 
Cope. Right NW Leti 1. Right AX B 


= ping Consi + Case + S 
从 这 个 方程 可 以 直接 编写 一 个 程序 来 计算 最 优 二 又 查 找 树 的 价值 。 像 通常 一 样 , 具体 的 
查找 树 可 以 通过 存储 使 Cup. nu 最 小 化 的 ; 值 而 保留 下 来 。 标准 的 递归 例 程 可 以 用 来 显示 具 
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体 的 树 。 
图 10-51 显示 将 由 算法 产生 的 表 。 对 于 单词 的 每 个 子 区 域 ， 最 优 二 又 查找 树 的 价值 和 根 
都 被 保留 。 最 底部 的 项 计算 输入 的 全 部 单词 集合 的 最 优 二 又 查找 树 。 最 优 树 是 图 10-48 中 所 



















































































示 的 第 三 棵 树 。 
Lefisl — Lefi-2 Left=3 Left=4 Left=5 Left=6 Left=7 
ar |a [mam and.and | egg.cgg | iff | the.the | two.two | 
22| a |18 [am | 20 [and | 05 [ege | 25] if | 02 [ the | 98 [wo] 
ELE aam | am.and |and.egg | egg-if | ifthe | the.two 
58| a |.56 [ana | 30 [and | 35 [ if | 29 [ if | 12 [two] 
sand | am.egg | and.if | egg.the | if.two 
3 = 
A EE: and| so[ f [39 [if | 47] if 
POSEE | am. if | and.ihe | egg..two 
1.17] am |121] and | 84 if [57] if 
adf am. the | and. two 
=5 
BARS asana [27 [and [192] if 
‘athe | am.two | 
6 | 
近代 =6 [Ta9[ana [153 [and 
DX 
=7 
BRIT and | 











图 10-51 对 于 样本 输入 的 最 优 二 叉 查 找 树 的 计算 


对 于 一 个 特定 的 子 区 域 即 am. .if 的 最 优 二 叉 查找 树 的 精确 的 计算 如 图 10-52 所 示 。 它 是 

计算 通过 在 根 处 放置 am, and, egg RI if 所 得 的 最 小 ( 价 ) 值 树 而 得 到 的 。 例 如 ， 当 and 被 放 在 

O 根 处 的 时 候 , 左 子 树 包 含 am..am( 通 过 前 面 的 计算 , 值 为 0.18)， 右 子 树 包含 egg. i CE 

hal 0.35). 而 pm+ Pant + pren + PA = 0-68, 总 价值 为 1.21。 
389) 








0 + 0.80 + 0.68 = 148 0.18 + 0.35 + 0.68 = 1.21 





am. egg ÁNULL) 





0.56 + 025 + 0.68 = 149. 0.66 + 0 + 0.68 = 1.34 
图 10-52 对 am. .if 的 表 项 (1.21，and) 的 计算 


这 个 算法 的 运行 时 间 是 O(N), 因为 当 它 实现 时 , 我 们 得 到 一 个 三 重 循环 。 对 于 这 个 问 
题 的 一 种 O(N? ) 算 法 在 一 些 练习 中 进行 了 概述 。 
10.3.4 所 有 点 对 最 短路 径 

我 们 的 第 三 个 也 是 最 后 一 个 动态 规划 应 用 是 计算 有 向 图 CG= (V， EE) 中 每 一 点 对 间 赋 权 
最 短路 径 的 一 个 算法 。 在 第 9 章 我 们 看 到 单 发 点 最 短路 径 问题 的 一 个 算法 ， 该 算法 找 出 从 任 
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意 一 点 * 到 所 有 其 他 项 点 的 最 短路 径 。 这 个 算法 (Dijkstra) 对 稠密 的 图 以 O( | V |?) 时间 运行 ， 
但 是 实际 上 对 稀 朴 的 图 更 快 . 我 们 将 给 出 一 个 短小 的 算法 解决 对 稠密 图 的 所 有 点 对 的 问题 。 
这 个 算法 的 运行 时 间 为 O(| VIF), 它 不 是 对 Dijkstra 算法 |V | 次 迭代 的 一 种 渐进 改进 但 对 非 
常 稠密 的 图 可 能 更 快 , 原因 是 它 的 循环 更 紧 次 。 如 果 存 在 一 些 负 的 边 值 但 没有 负 值 图 , 那么 
这 个 算法 也 能 正确 运行 ;而 Dijkstra 算法 此 时 是 失败 的 。 

让 我 们 回忆 Dijkstra 算法 的 一 些 重要 细节 (读者 可 以 复习 9.3 节 )。Dijkstra 算法 在 顶点 s JF 
始 并 分 阶段 工作 。 图 中 的 每 个 顶点 最 终 都 要 被 选 作 中 间 顶 点 。 如 果 当前 所 选 的 顶点 是 v, 那么 
对 于 每 个 wE V, 8t d, - min(d,, dot coru) RARER, (从 s) 到 w 的 最 佳 距离 或 者 是 
前 面 知道 的 从 s 到 ze 的 距离 , 或 者 是 从 s( 最 优 地 ) 到 v 然后 再 直接 从 v 到 w 的 结果 。 

Dijkstra 算法 提供 了 动态 规划 算法 的 想法 : 我 们 依 序 选择 这 些 顶 点 。 RI De, ;. ,定义 
为 从 vw; Sl v, REH v, v e v 作为 中 间 顶 点 的 最 短路 径 的 权 。 根据 这 个 定义 ，Do.;,; = 
cig 其 中 若 (w， 也 ) 不 是 该 图 的 边 则 c iko, HA, 根据 定义 , Div,;,; 是 图 中 从 wi 到 vw 的 
最 短路 径 。 

如 图 10-53 BER, 4 k>0 时 我 们 可 以 给 Dii ; 写 出 一 个 简单 公式 。 从 ww Sl o, 只 使 用 
vs vzs rns oy 作为 中 间 顶 点 的 最 短路 径 或 者 是 根本 不 使 用 wv 作为 中 间 项 点 的 最 短路 径 , 或 
者 是 由 两 条 路 径 wv 一 v 和 wv 合并 而 成 的 最 短路 径 , 其 中 的 每 条 路 径 只 使 用 前 一 1 个 顶 
点 作为 中 间 顶 点 。 这 导致 下 面 的 公式 








/* Compute Al1-Shortest Paths */ 

/* AL ] contains the adjacency matrix */ 

/* with AL i J[ i ] presumed to be zero */ 

/* D[ ] contains the values of the shortest path */ 

/* N is the number of vertices */ 

/* ^ negative cycle exists iff */ 

/* DL i JL 4) is set to a negative value */ 

/* Actual path can be computed using Path[ ] */ 

/* AM arrays are indexed starting at 0 */ 

/* NotAVertex is -1 */ 

void 

AllPairs( TwoDimarray A, TwoDimArray D, 
TwoDimArray Path, int N ) 

t 





ize D and Path */ 


/* 1a/ for( i = 0; i < N; dee 
/* 2*/ for( j = 0: j <N; je) 

{ 
fe Ori JL j 1 - AL i LG 
Jh 44] Path[ i JC j) = NotAVertex; 

) 
fts for( k = 0; k < Ni kee ) 

/* Consider each vertex as an intermediate */ 
/* 6*/ for( i = 0; i <N; i++ ) 
/* TH for( j= 0; j <N; j++) 
/* 8*/ dors at eye of ki < 0049052) 

1 
/* Update shortest path */ 

/* 9*/ S C Pent LR oc KIL 3: 
/*10*/ patht i JE k] = 


! 











图 10-53 所 有 点 对 最 短路 径 
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Ds i j= mini Dj, i,j, Dii i a + Diii ai jl 
时 间 需 求 还 是 OC! V 13). 跟前 面 的 两 个 动态 规划 例子 不 同 , 这 个 时 间 界 实际 上 尚未 用 另外 的 
方法 降低 。 

因为 第 阶段 只 依赖 于 第 (k — 1) 阶 段 , 所 以 看 来 只 有 两 个 | V| x | V| 和 矩阵 需要 保存 。 
而 , 在 用 上 开始 或 结束 的 路 径 上 以 k 作为 中 间 顶 点 对 结果 没有 改进 , 除非 存在 一 个 负 的 
因此 只 有 一 个 矩阵 是 必须 的 , 因为 D = De, i MDa = Di.4,;， 这 意味 着 右边 
的 项 都 不 改变 值 且 都 不 需要 存储 。 这 个 观察 结果 导致 图 10-53 中 的 简单 程序 , 为 与 C 的 约定 
一 致 ,该 程序 将 顶点 从 0 开始 编号 。 

在 一 个 完全 图 中 , 每 一 对 顶点 (在 两 个 方向 上 ) 都 是 连通 的 , 该 算法 几乎 肯定 要 比 Dijkstra 
算法 的 | V| 次 迭代 快 , 因为 这 里 的 循环 非常 紧凑 。 第 1 行 到 第 4 行 可 以 并 行 执行 , 第 6 行 到 
第 10 行 也 可 并 行 执行 。 因 此 , 这 个 算法 看 来 很 适合 并 行 计算 。 

动态 规划 是 强大 的 算法 设计 技巧 , 它 给 解 提供 一 个 起 点 。 它 基本 上 是 首先 求解 一 些 更 简 
单 问题 的 分 治 算法 的 范例 , 重要 的 区 别 在 于 这 些 更 简单 的 问题 不 足 原 问题 的 明确 的 分 市 。 因 
为 子 问题 反复 被 求解 ,所 以 重要 的 是 将 它们 的 解 记录 在 一 个 表 中 而 不 是 重新 计算 它们 。 在 某 
些 情况 下 , 解 可 以 被 改进 (虽然 这 确实 不 总 是 明显 的 且 常 常 是 困难 的 ), 而 在 另 一 些 情况 下 ， 
动态 规划 方法 则 是 所 知道 的 最 好 的 处 理 方法 。 

在 某 种 意义 上 , 如 果 你 看 出 一 个 动态 规划 问题 , 那么 你 就 看 出 所 有 的 问题 。 动 态 规 划 更 
多 的 例子 在 一 些 练习 和 参考 文献 中 可 以 找到 。 


10.4 随机 化 算法 


假设 你 是 一 位 教授 , 正在 布置 每 周 的 程序 设计 作业 。 你 想 确 保 学 生 在 完成 自己 的 程序 ， 
或 至 少 理解 他 们 提交 上 来 的 程序 。 一 种 解决 方案 是 在 每 个 程序 呈 交 的 当天 进行 一 次 测验 ( 面 
试 )。 另 一 方面 , 这 些 测验 花费 课外 时 间 , 因此 实际 上 只 能 对 大 约 半数 的 程序 可 以 这 么 做 。 你 
的 问题 是 决定 什么 时 候 进 行 这 些 测验 。 

当然 ,如果 事先 宣布 这 些 测验 , 那么 这 可 以 解释 为 对 得 不 到 测验 的 50% 程序 的 默许 作 
Wc. 你 可 能 采取 不 宣布 的 策略 对 备 选 的 程序 进行 测验 ,不 过 学 生 们 很 快 就 会 搞 清楚 这 种 作 
法 。 另 一 种 可 能 是 对 看 似 重要 的 程序 进行 测验 , 而 这 又 会 泄露 从 学 期 到 学 期 类 似 的 测验 风 
格 。 学 生 传播 都 考 些 什么 样 的 题 , 这 种 策略 很 可 能 经 过 一 个 学 期 以 后 就 没有 什么 价值 了 。 

消除 这 些 琴 端的 一 种 方法 是 使 用 一 个 硬币 。 测 验 对 每 一 个 程序 进行 (举行 测验 远 不 如 给 
他 们 评分 消耗 时 间 ), 在 开始 上 课时 教授 将 掷 硬币 来 决定 是 否 要 举行 测验 。 采 用 这 种 方式 ,在 
上 课 前 不 可 能 知道 测验 是 否 要 进行 ,而 测验 的 模式 从 学 期 到 学 期 之 间 也 不 重复 。 这 样 , 不 管 
前 面 的 测验 都 是 什么 规律 , 学 生 只 能 预计 测验 发 生 的 概率 将 是 50% 。 这 种 方法 的 缺点 是 有 可 
能 整个 学 期 都 没有 测验 , 不 过 这 不 太 可 能 发 生 , 除非 硬币 有 问题 。 每 个 学 期 测验 的 期 望 次 数 
是 程序 数目 的 一 半 , 并 且 测 验 的 次 数 将 以 高 概率 不 会 太 偏离 这 个 数目 。 

这 个 例子 叙述 了 我 们 称 之 为 随机 化 算法 (randomized algorithm ) 的 方法 。 在 算法 期 间 , 随 
机 数 至 少 有 一 次 用 于 决策 。 该 算法 的 运行 时 间 不 只 依赖 于 特定 的 输入 ,而 且 依赖 于 所 发 生 的 
随机 数 。 

一 个 随机 化 算法 的 最 坏 情形 运行 时 间 几 乎 总 是 和 非 随机 化 算法 的 最 坏 情形 运行 时 间 相 
同 。 重要 的 区 别 在 于 , 好 的 随机 化 算法 没有 不 好 的 输入 ， 而 只 有 坏 的 随机 数 (相对 于 特定 的 输 
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A). 这 看 起 来 像 是 只 是 哲学 上 的 差别 , 但 是 实际 上 它 是 相当 重要 的 , 正如 下 面 的 例子 所 示 。 

考虑 快速 排序 的 两 种 变形 。 方 法 A 用 第 一 个 元 素 作为 枢纽 元 ,而 方法 了 使 用 随机 选 出 的 
元 素 作为 枢纽 元 。 在 这 两 种 情形 下 , 最 坏 情形 运行 时 间 都 是 9( N?), 因为 在 每 一 步 都 有 可 能 
选取 最 大 的 元 素 作为 枢纽 元 。 两 种 最 坏 情形 之 间 的 区 别 在 于 , 存在 特定 的 输入 总 能 够 出 现在 
入 中 并 产生 不 好 的 运行 时 间 。 当 每 一 次 给 定 已 排序 数据 时 , 方法 A 都 将 以 GUNT PESE GI 
如 果 方 法 B 以 相同 的 输入 运行 两 次 , 那么 它 将 有 两 个 不 同 的 运行 时 间 , 这 依赖 于 什么 样 的 随 
机 数 发 生 。 

在 运行 时 间 的 计算 中 我 们 通 篇 假设 所 有 的 输入 都 是 等 可 能 的 。 实 际 上 这 并 不 成 立 , 例如 
几乎 排序 的 输入 常常 要 比 统计 上 期 望 的 出 现 得 多 得 多 ,而 这 会 产生 一 些 问题 , 特别 是 对 快速 
排序 和 二 叉 查 找 树 。 通 过 使 用 随机 化 算法 ,特定 的 输入 不 再 是 重要 的 。 重 要 的 是 随机 数 ,我 
们 可 以 得 到 一 个 期 望 的 运行 时 间 , 此 时 我 们 是 对 所 有 可 能 的 随机 数 取 平均 而 不 是 对 所 有 可 能 
的 输入 求 平均 。 使 用 随机 枢纽 元 的 快速 排序 算法 是 一 个 O(N log N) 期 望 时 间 算法 。 这 就 是 
说 , 对 任意 的 输入 , 包括 已 经 排序 的 输入 , 根据 随机 数 统计 学 理论 ,运行 时 间 的 期 望 值 为 
O(N log N)。 期 望 运行 时 间 界 多 少 要 强 于 平均 时 间 界 , 但是， 当然 要 比 对 应 的 最 坏 情 形 界 
38. 另 一 方面 , 正如 我 们 在 选择 问题 中 所 看 到 的 ,得 到 最 坏 情形 时 间 界 的 那些 解决 方案 常常 
不 如 它们 的 平均 情形 那样 在 实际 中 常见 。 但是， 随机 化 算法 却 通常 是 一 致 的 。 

在 这 一 节 , 我 们 将 考查 随机 化 的 两 个 用 途 。 首先, 我 们 将 介绍 以 O(log N) 期 望 时 间 支 持 
二 叉 查 找 树 操作 的 新 颖 的 方案 。 这 意味 着 不 存在 坏 的 输入 , 只 有 坏 的 随机 数 。 从 理论 的 观点 
看 , 这 并 没有 那么 令 人 振奋 ， 因 为 平衡 查找 树 在 最 坏 情形 下 达到 了 这 个 界 。 然 而 , 随机 化 的 
使 用 导致 了 对 查找 、 插 入 、 特 别 是 删除 的 相对 简单 的 算法 。 

第 二 个 应 用 是 测试 大 数 是 否 是 素数 的 随机 化 算法 。 对 于 这 个 问题 , 没有 已 知 的 有 效 的 多 
项 式 时 间 非 随机 化 算法 。 我 们 介绍 的 这 种 算法 运行 很 快 但 偶尔 会 有 错 。 不 过 ,发 生发 生 错误 
的 概率 可 以 小 到 忽略 不 计 。 

10.4.1 随机 数 发 生 器 

由 于 我 们 的 算法 需要 随机 数 , 因 此 我 们 必须 要 有 一 种 方法 去 生成 它 。 实际 上 , 真正 的 随 
机 性 在 计算 机 上 是 不 可 能 的 , 因为 这 些 数 将 依赖 于 算法 ,从 而 不 可 能 是 随机 的 。 一般 说 来 ， 
产生 伪 随 机 数 (pseudorandom number) 就 足够 了 ， 伪 随机 数 是 看 起 来 像 是 随机 的 数 。 随机 数 有 
许多 已 知 的 统计 性 质 ; 伪 随 机 数 满足 这 些 性 质 的 大 部 分 。 令 人 惊奇 的 是 , 这 说 起 来 容易 ， 做 起 
来 可 就 难 多 了 。 

设 我 们 只 需要 抛 一 枚 硬币 。 这 样 ,我 们 必然 随机 地 生成 0 或 1。 一 种 做 法 是 考查 系统 时 
钟 。 这 个 时 钟 可 以 把 时 间 记 录 成 整数 ,而 这 个 整数 是 从 某 个 起 始 时 刻 开始 计 数 的 秒 数 。 此 时 
我 们 可 以 使 用 它 的 最 低 二 进 制 位。 问题 在 于 ,如 果 需 要 随机 数 序列 ， 那么 方法 就 不 理想 了 
一 秒 是 一 个 长 的 时 间 段 , 在 程序 运行 时 这 个 时 钟 可 能 根本 没 变化 。 即 使 时 间 用 微妙 为 单位 记 
录 , 如 果 程序 自身 正在 运行 ,那么 所 生成 的 数 的 序列 也 远 不 是 随机 的 ， 因 为 在 对 发 生 器 的 多 
次 调用 之 间 的 时 间 在 每 次 程序 调用 时 可 能 都 是 一 样 的 。 此 时 我 们 看 到 , 真正 需要 的 是 随机 数 
的 序列 (sequence) .这 些 数 应 该 独立 地 出 现 。 如 果 一 枚 硬币 抛 出 后 出 现 的 是 正面 , 那么 下 一 
次 再 抽出 时 出 现 正面 或 反面 应 该 还 是 等 可 能 的 。 


〇 在 本 节 的 其 余部 分 我 们 将 使 用 随机 代 若 伪 随机 
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产生 随机 数 的 最 简单 的 方法 是 线性 同 余 数 发 生 器 , EF 1951 年 由 Lehmer 首先 描述 。 数 

Lip EIT 的 生成 满足 
rj 7 Ar; mod M 

为 了 开始 这 个 序列 , 必须 给 出 ro 的 某 个 值 。 这 个 值 叫做 种 子 (seed)。 如果 x9 70, 那么 这 个 
序列 远 不 是 随机 的 , 但 是 如 果 A 和 AM 选择 得 正确 , 那么 任何 其 他 的 1-519 M 都 是 同等 有 
效 的 。 如果 M 是 素数 , 那么 r 就 绝 不 会 是 0。 作为 一 个 例子 , WR M=11, A=7, M col, 
那么 所 生成 的 数 为 

7,5, 2,3, 10, 4,6, 9, 8,1, 7, 5, 2, 200% 

注意 , 在 M-1=10 个 数 以 后 , 序列 将 重复 。 因此 , 这 个 序列 的 周期 为 M1, 它 是 尽 可 能 地 大 
(根据 鲍 巢 原理 )。 如 果 M 是 素数 ,那么 总 存在 对 A 的 一 些 选择 能 够 给 出 整 周期 (full period) M ~ 1, 
对 A 的 有 些 选择 则 得 不 到 这 样 的 周期 ;如 果 A=5 而 zo=1, 那么 序列 有 一 个 短 周 期 过 5。 

5,3,4,9,1,5,3, 4, "+ 

如 果 M 选择 得 很 大 ,比如 31 比特 的 素数 , 那么 对 于 大 部 分 的 应 用 来 说 周期 应 该 是 非常 
长 的 。Lehmer 建议 使 用 31 个 比特 的 素数 M= 23 -1=2147 483 647。 对 于 这 个 素数 , A=48271 
是 给 出 整 周期 发 生 器 的 许多 值 中 的 一 个 。 它 的 用 途 已 经 被 深入 研究 并 被 这 个 领域 的 专家 推 
荐 。 后 面 我 们 将 看 到 ,对 于 随机 数 发 生 器 ， 贸 然 修改 通常 意味 着 失败 ， 因 此 我 们 奉劝 还 是 继 
续 坚 持 使 用 这 个 公式 直到 有 新 的 成 果 发 布 。 

这 像 是 一 个 实现 起 来 很 简单 的 例 程 。 一 般 地 , 全 局 变量 用 来 存放 x 的 序列 的 当前 值 。 这 
是 全 局 变量 发 挥 作用 的 罕见 情况 。 这 个 全 局 变量 由 某 个 例 程 初始 化 。 当 调试 一 个 使 用 随机 数 
的 程序 的 时 候 , 大 概 最 好 是 置 zo= 1, 这 使 得 总 是 出 现 相同 的 随机 序列 。 当 程序 工作 时 ,可 以 
使 用 系统 时 钟 ， 也 可 以 要 求 用 户 输入 一 个 值 作为 种 子 。 

返回 一 个 位 于 开 区 间 (0, 1) 的 随机 实数 (0 和 1 是 不 可 能 取 的 值 ) 也 是 常见 的 情况 ;这 可 以 
通过 除 以 M 得 到 。 由 此 可 知 , 在 任意 闭 区 间 [a, BP] 的 随机 数 可 以 通过 规范 化 来 计算 。 这 将 产 
生 图 10-54 中 “明显 的 " 例 程 , 不 过 , 该 例 程 只 在 很 少 的 机 器 上 能 够 正常 运行 。 








static unsigned long Seed = 1; 


wdefine A 48271L 
wdefine M 2147483647L 


double 
Random( void ) 
{ 
Seed = ( A * Seed ) X M; 
return ( double ) Seed / M; 
j 


void 
Initialize( unsigned long Initval ) 
[ 


Seed - InitVal; 








) 





图 10-54 不 能 正常 工作 的 随机 数 发 生 器 


这 个 例 程 的 问题 是 乘法 可 能 溢出 ;虽然 这 不 是 一 个 错误 ， 但 是 它 影响 计算 的 结果 ， 从 而 
影响 伪 随 机 性 。Schrage 给 出 一 个 过 程 ， 在 这 个 过 程 中 所 有 的 计算 均 可 在 32 位 机 上 进行 而 不 会 
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溢出 。 我 们 计算 M/A 的 商 和 余数 并 把 它们 分 别 定义 为 Q 和 R。 在 上 述 情况 下 ，Q = 44 488, 
R=3399, R<Q. 我 们 有 


EEC) 


iT a= Q 器 | + zimodQ, 我 们 可 以 代入 到 右边 的 第 一 项 Ar 并 得 到 
sue ai] saj- äle wa] 3) 
= (AQ - M| Z| + AG + (| Z| -| SE) 


但 M=AQ+R, Alt AQ- M = - R. 于 是 我 们 得 到 
sac tma -对 一 + 8] - 4) 





sit a(x) = |A |-| 4 tito soe, ouo e sc mae teo EDL. 因此 ， 
我 们 有 
zia = AG mod Q) -R| 5] + M(x) 
快速 验证 表明 ,因为 R« Q, 故 所 有 的 余 项 均 可 计算 而 没有 溢出 (这 就 是 选择 A = 48 271 


的 原因 之 一 )。 此 外 , 仅 当 余 项 的 值 小 于 0 时 , 3(x;)=1。 因 此 3(zi) 不 需要 显 式 地 计算 而 是 
可 以 通过 简单 的 测试 来 确定 。 这 导致 图 10- 55 中 的 程序 。 





static unsigned long Seed = 1; 


#define A 48271L 
#define M 2147483647L 
"define Q(M/A) 
wdefine R (MX A) 


double 
Random( void ) 
[ 

long TmpSeed; 


TmpSeed = A * ( Seed X Q) - R * ( Seed / Q ); 
if( TmpSeed >= 0 ) 

Seed = TmpSeed; 
else 

Seed = TmpSeed + M; 


return ( double ) Seed / M; 
} 
void 
Initialize( unsigned long InitVal ) 
{ 


Seed = InitVal: 
) 











图 10-55 工作 于 32 位 机 上 的 随机 数 发 生 器 
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只 要 INT. MAXZ2! - 1, 这 个 程序 就 能 正常 工作 。 人 们 可 能 会 想到 要 假设 所 有 的 机 器 
在 它们 标准 库 中 都 有 一 个 至 少 像 图 10-55 中 的 程序 那么 好 的 随机 数 发 生 器 , 但 糟糕 的 是 , 情 
况 不 是 这 样 。 许 多 库 中 的 发 生 器 基于 函数 

Xi+1 7 (Ax; + C) mod 23 
其 中 B 的 选取 要 匹配 机 器 整数 的 位 数 , 而 C 是 奇数 。 这 些 库 也 返回 x;, 而 不 是 0 和 1 之 间 的 
一 个 值 。 不 幸 的 是 , 这 些 发 生 器 总 是 产生 在 奇偶 之 间 交 错 的 zx; 的 值 一 一 很 难 具 有 理想 的 性 
质 。 事 实 上 ，( 充 其 量 ) 是 低 e 位 以 周期 2 循环 。 许 多 其 他 随机 数 发 生 器 要 比 图 10-55 所 提供 
的 随机 数 发 生 器 的 循环 小 得 多 。 这 些 发 生 器 对 于 需要 长 的 随机 数 序列 的 情况 是 不 合适 的 。 最 
后 , 我 们 通过 添加 一 个 常数 到 方程 中 去 可 能 会 得 到 更 好 的 随机 数 发 生 器 。 例 如， 
j+1 = (482712, + 1) mod (2! - 1) 
多 少 会 更 加 随机 一 些 。 这 个 例子 说 明 这 些 随机 数 发 生 器 是 多 么 的 脆弱 。 
[48 271(179 424 105) + 1] mod (23 = 1) = 179 424 105 

因此 ,如果 种 子 是 179 424 105, 那么 发 生 器 将 陷 人 周期 为 1 的 循环 。 
10.4.2 跳跃 表 

随机 化 的 第 一 个 用 途 是 以 O(log N) 期 望 时 间 支 持 查 找 和 插入 的 数据 结构 。 正 如 在 本 节 介 
绍 中 所 提 到 的 , 这 意味 着 对 于 任意 输入 序列 的 每 一 次 操作 的 运行 时 间 都 有 期 望 值 O(log N), 
其 中 的 期 望 是 基于 随机 数 发 生 器 的 。 能 够 添加 删除 和 所 有 涉及 排序 的 操作 并 得 到 与 二 又 查找 
树 的 平均 时 间 界 匹配 的 期 望 时 间 界 。 

最 简单 的 支持 查找 的 可 能 的 数据 结构 是 链表 。 图 10-56 是 一 个 简单 的 链表 。 执行 一 次 查 
找 的 时 间 正 比 于 必须 考查 的 节点 个 数 , 这 个 个 数 最 多 是 N。 


HH oH IH {THE A313 
图 10-56 简单 链表 


图 10- 57 表示 一 个 链表 , 在 该 链表 中 ,每 隔 一 个 节点 有 一 个 附加 的 指针 指向 它 在 表 中 前 
两 个 位 置 上 的 节点 。 正 因为 如 此 , 在 最 坏 情形 下 , 最 多 考查 [ NM21+ 1 个 节点 。 


ea ol tie 4} 元 时 ?| ot 
图 10-57 带 有 指向 前 面 第 2 个 表 元 素 的 指针 的 链表 


将 这 种 想法 扩展 , 我 们 得 到 图 10-58. 这 里 , 每 个 序数 是 4 的 倍数 的 节点 都 有 一 个 指针 指 
向 下 一 个 序数 是 4 的 倍数 的 节点 。 只 有 [ NM41+ 2 个 节点 被 考查 。 


Tt 
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图 10-58 带 有 指向 前 面 第 4 个 表 元 素 的 指针 的 链表 






























































































































































这 种 跳跃 幅度 的 一 般 情 形 如 图 10-59 所 示 。 每 个 2 节点 就 有 一 个 指 入 指向 下 一 个 2 节 
点 。 总 的 指针 个 数 仅仅 是 加 倍 , 但 现在 在 一 次 查找 中 最 多 考查 | log NIMH. PEAS, 一 
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次 查找 总 的 时 间 消耗 为 O(log N), 这 是 因为 查找 由 向 前 到 一 个 新 的 节点 或 者 在 同一 节点 下 
降 到 低 一 级 的 指针 组 成 。 在 一 次 查找 期 间 每 一 步 总 的 时 间 消 耗 最 多 为 O(log N): 注意 , 在 这 
种 数据 结构 中 的 查找 基本 上 是 折 半 查找 (binary search) - 
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图 10-59 带 有 指向 前 面 第 2 个 表 元 素 的 指针 的 链表 


这 种 数据 结构 的 问题 是 有 效 的 插入 太 过 于 呆板 。 使 用 这 种 数据 结构 的 关键 是 稍微 放松 结 
构 条 件 。 我 们 将 带 有 A 个 指针 的 节点 定义 为 k 阶 节点 (level k node)。 如 图 10-59 所 示 , 任意 人 
阶 节点 上 的 第 i 阶 ( 宇 i) 指 针 指 向 的 下 一 个 节点 至 少 具有 i 阶 。 这 是 一 个 容易 保留 的 性 质 ， 
不 过 , 图 10-59 指出 比 它 更 有 限制 性 的 性 质 。 这样 , 我 们 把 第 i 个 指针 指向 前 面 第 2' 个 节点 
的 这 个 限制 去 掉 , 而 代 之 以 上 面 稍 松 一 些 的 限制 条 件 。 

当 需 要 插入 新 元 素 的 时 候 , 我 们 为 它 分 配 一 个 新 的 节点 。 此 时 , 我 们 必须 决定 该 节点 是 
多 少 阶 的。 考查 图 10- 59 我 们 发 现 , 大 约 一 半 的 节点 是 1 阶 节点 , 大 约 1/4 的 节点 是 2 阶 节 
点 , 一 般 地 ,大 约 1/27 的 节点 是 i 阶 节点 。 我 们 按照 这 个 概率 分 布 随机 选择 节点 的 阶 数 。 最 
容易 的 方法 是 抛 一 枚 硬币 直到 正面 出 现 并 把 抛 硬币 的 总 次 数 作为 该 节点 的 阶 数 。 图 10-60 显 
A — 7 SFY AY BERK K (skip list)。 
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图 10-60 一 个 跳跃 表 


给 出 上 面 的 分 析 以 后 , 跳跃 表 算法 的 描述 就 简单 了 。 为 执行 一 次 Find, 我 们 在 头 节点 从 
最 高 阶 的 指针 开始 , 沿 着 这 个 阶 一 直 走 ， 直 至 找到 大 于 我 们 正在 寻找 的 节点 的 下 一 个 节点 
(或 者 是 NULL) 前 停 下 。 这 个 时 候 , 我 们 转 到 低 一 阶 的 阶 并 继续 这 种 方法 。 当 进行 到 一 阶 停 
止 时 , 或 者 我 们 位 于 正在 寻找 的 节点 的 前 面 , 或 者 它 不 在 这 个 表 中 。 为 了 执行 一 次 Insert, 我 
们 像 在 执行 Find 时 那样 ,始终 监视 每 一 个 使 我 们 转 到 下 一 阶 的 节点 。 最 后 ,将 新 节点 ( 它 的 
阶 是 随机 确定 的 ) 拼 接 到 表 中 。 操 作 见 图 10-61. 





























































































































图 10-61 插入 前 和 插入 后 的 跳跃 表 
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粗略 分 析 指 出 , 由 于 没有 在 原 ( 非 随机 化 的 ) 算 法 上 改变 每 一 阶 的 节点 的 期 望 个 数 , 因此 
预计 穿越 该 同 阶 的 节点 的 总 的 工作 量 是 不 变 的 。 这 告诉 我 们 , 这 些 操作 具有 期 望 ( 价 ) 值 
O(log N). 当然 , 更 形式 化 的 证 明 是 需要 的 , 但 它 与 这 里 没有 太 大 的 区 别 。 

跳跃 表 类 似 十 散 列 表 , 它们 都 需要 估计 表 中 的 元 素 个 数 (从 而 阶 的 个 数 可 以 确定 )。 如 果 
得 不 到 这 种 估计 , 那么 我 们 可 以 假设 一 个 大 的 数 或 者 使 用 一 种 类 似 于 再 散 列 (rehash) 的 方法 。 
经 验 表明 , 跳跃 表 如 许多 平衡 查找 树 实现 方法 一 样 有 效 ， 当 然 , 用 许多 种 语言 实现 都 会 简单 
得 多 
10.4.8 素性 测试 

在 这 一 节 , 我 们 考查 确定 一 个 大 数 是 否 是 素数 的 问题 。 正 如 在 第 2 章 末尾 谈 到 的 ， 某 些 
密码 方案 依赖 于 大 数 分 解 的 困难 性 ， 比 如 将 一 个 200 位 数 分 解 成 两 个 100 位 的 素数 相 乘 。 为 
了 实现 这 种 方案 , 我 们 需要 一 种 生成 两 个 大 素数 的 方法 。 因 为 现在 没有 人 知道 如 何以 d 的 多 
项 式 时 间 测 试 一 个 d 位 数字 的 数 N 是 否 是 素数 , 所 以 分 解 大 素数 的 问题 主要 还 是 理论 上 的 问 
题 。 例 如 , 测试 能 否 被 从 3 到 V 太 的 奇数 整除 的 常用 方法 大 约 需要 二 V 玉 次 除法 ， 它 大 约 为 
242。 另 一 方面 , 这 个 问题 不 被 认为 是 NP 完全 的 ;因此 , 它 是 处 在 边缘 上 的 少数 几 个 问题 之 

-一 一 它 的 复杂 性 在 编写 本 书 时 尚 不 知道 。 

在 这 一 章 , 我 们 将 给 出 一 个 可 以 测试 素性 的 多 项 式 时 间 算法 。 如 果 这 个 算法 宣称 一 个 数 
AKER, 那么 我 们 可 以 肯定 这 个 数 不 是 素数 。 如 果 该 算法 宣称 一 个 数 是 素数 , 那么 , 这 个 
数 将 以 高 的 概率 而 不 是 100% 肯 定 是 素数 。 错误 的 概率 不 依赖 于 被 测试 的 特定 的 数 , 而 是 依 
赖 于 由 算法 作出 的 随机 选择 。 因 此 , 这 个 算法 偶尔 会 出 错 , 不 过 将 会 看 到 , 我们 可 以 让 出 错 
的 比率 任意 小 。 

算法 的 关键 是 著名 的 费 马 (Fermat) 定 理 。 

定理 10.10 

费 马 小 定理 ; 如 果 P 是 素数 , 且 0<A<P, 那么 A? '=1 (mod P). 

证 明 : 

这 个 定理 的 证 明 可 以 在 任 一 本 数论 教科 书 中 找到 。 

例如 , 由 于 67 是 素数 , 因此 2% 三 1 (mod 67)。 这 提出 了 测试 一 个 数 N 是 否 是 素数 的 算 
法 ; 只 要 检验 一 下 是 否 2X-! 生 1 (mod N)。 如 果 211 (mod N) 不 成 立 ， 那么 我 们 可 以 肯定 
N 不 是 素数 。 另 一 方面 , 如 果 等 式 成 立 , 那么 N 很 可 能 是 素数 。 例 如 , 满足 2 =1 (mod N) 
但 不 是 素数 的 最 小 的 N 是 N=341。 

这 个 算法 偶尔 会 出 错 , 但 问题 是 它 总 出 一 些 相同 的 错误 。 换 句 话说, 存在 N 的 一 个 固定 的 
集合 , 对 于 这 个 集合 该 方法 行 不 通 。 我 们 可 以 尝试 将 该 算法 如 下 随机 化 : 随机 取 CAN ~ Lo 
如 果 AS =l (mod N), 则 宣布 N 可 能 是 素数 , 否则 宣布 N 肯定 不 是 素数 。 如 果 N= 341 而 
A =3, 那 么 我 们 发 现 3* 三 56 (mod 341)。 因此， 如 果 算 法 碰巧 选择 A = 3, 那么 它 将 对 
N=341 得 到 正确 的 答案 。 

虽然 这 看 起 来 没有 问题 , 但 是 却 存在 一 些 数 , 对 于 A 的 某 些 选择 它们 甚至 可 以 骗 过 该 算 
法 。 一 种 这 样 的 数 集 叫做 Carmichael 数 , 这 些 数 不 是 素数 ， 可 是 对 所 有 与 N 互 素 的 0<A< AN 
却 满足 AN-:=1 (mod N)。 最 小 的 这 样 的 数 是 561。 因此， 我 们 还 需要 一 个 附加 的 测试 来 改 
进 不 出 错 的 几率 。 
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在 第 7 章 , 我 们 证 明 过 一 个 关于 平方 探测 (quadratic probing) HIE HE. 这 个 定理 的 特殊 情 
BUT. 

ERE 10.11 

如 果 P 是 素数 且 0<X<P, 那么 X= (mod P) 仅 有 的 两 个 解 为 X=1, P- 1. 

证 明 ， 

X?z] (mod 已 ) 意 味 着 X? -1=0 (mod 已 )。 这 就 是 说 , (X- 1) (X + 1)—0 (mod P), 

HF PERK, OC X € P, 因此 P 必然 是 或 者 整除 (X - 1) ,或 者 整除 (X + 1), 由 此 推 

因此 , 如 果 在 计算 AN (mod N) 的 任 一 时 刻 我 们 发 现 违 背 了 该 定理 , 那么 可 以 断言 A 
不 是 素数 。 如 果 使 用 2.4.4 AE, 那么 我 们 看 到 将 有 几 种 机 会 来 实现 这 种 测试 。 我 们 
修改 执行 对 N 的 求 余 运算 的 例 程 并 应 用 定理 10.11 的 测试 。 这 种 方法 在 图 10-62 中 实现 。 





/* If Witness does not return 1, N is definitely */ 

/* composite. Do this by computing (A ` i ) mod N and */ 
/* looking for non-trivial square roots of 1 along the */ 
/* way. We are assuming very large numbers, so this */ 

/* is pseudocode */ 


HugeInt 
Witness( HugeInt A, HugeInt i, HugeInt N ) 
{ 


HugeInt X, Y; 


if( i == 0) 
return 1; 


X = Witness( A, i / 2，N ); 
if(X== 0) /* If N is recursively composite, stop */ 
return 0; 


/* N is not prime if we find a non-trivial root of 1 */ 
YeC(X* X) XN 
if( Y e= D4&X Ie 18& X IN - 1) 

return 0; 


dfCi X2 120) 
Ye CA* YOXN 


return Y; 


P 

/* IsPrime: Test if N >= 3 is prime using one value */ 
/* of A. Repeat this procedure as many times as needed */ 
/* for desired error rate */ 

int 

IsPrime( HugeInt N ) 

1 


return Witness( RandInt( 2, N - 2), N- 1, N ) == l; 
) 











图 10-62 一 种 概率 素性 测试 算法 


我 们 知道 ,如果 函数 Witness 返回 任何 不 是 1 的 数 , 那么 它 就 已 经 证 明了 N 不 是 素数 ， 
其 证 明 是 非 构造 性 的 ,因为 它 并 没有 具体 给 出 找到 因子 的 方法 。 业已 证 明 , 对 于 任何 (充分 大 
的 )N, 至 多 有 A 的 (N - 9)/4 个 值 会 使 该 算法 得 出 错误 的 结论 。 因 此 ， 如 果 4 是 随机 选取 
的 .而 且 算 法 的 结论 是 N( 很 可 能 ) 为 素数 , 那么 至 少 有 75% 的 时 机 算法 是 正确 的 。 设 函数 
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Witness 运行 50 次， 则 算法 得 出 错误 结论 的 概率 是 十 。 因此 , 50 次 独立 的 随机 试验 使 算法 出 
错 的 概率 绝 不 会 超过 1/4 -2 19, 实际 上 这 是 非常 保守 的 估计 , 它 只 对 N 的 某 些 选择 成 
立 。 即 使 如 此 ， 人 们 更 可 能 看 到 的 是 硬件 的 错误 , 而 不 是 对 于 数 的 素性 的 不 正确 的 宣布 结果 。 


10.5 回溯 算法 


我 们 将 要 考查 的 最 后 一 个 算法 设计 技巧 是 回溯 (backtracking) 算 法 。 在 许多 情况 下 ， 回 涛 
算法 相当 于 穷 举 搜索 的 巧妙 实现 , 但 性 能 一 般 不 理想 。 不 过 , 情况 并 不 总 是 如 此 , 即使 如 此 ， 
在 某 些 情形 下 它 相 比 蛮 力 (brute force) 穷 举 搜索 ,工作 量 也 有 显著 的 节省 。 当 然 , 性 能 是 相对 
的 : 对 于 排序 而 言 ，O(N2) 的 算法 是 相当 差 的 , 但 对 旅行 售货员 (或 任何 NP 完全 ) 问 题 ， 
O(N5) 算 法 则 是 里 程 碑 式 结果 。 

回溯 算法 的 一 个 具体 例子 是 在 一 套 新 房子 内 摆 放 家 具 的 问题 。 存 在 许多 可 能 的 尝试 , 但 
一 般 只 有 一 些 是 具体 要 考虑 的 。 开始 什 么 也 不 摆 放 ， 然后 是 每 件 家 具 被 摆 放 在 室内 的 某 个 部 
Ap. 如 果 所 有 的 家 具 都 已 摆好 而 且 户主 很 满意 , 那么 算法 终止 。 如 果 摆 到 某 一 步 , 该 步 之 后 
的 所 有 家 具 摆 放 方法 都 不 理想 , 那么 我 们 必须 撤销 这 一 步 并 尝试 该 步 另 外 的 摆 放 方法 。 当 
然 , 这 也 可 能 导致 另外 的 撤销 , 等 等 。 如 果 我 们 发 现 我 们 撤销 了 所 有 可 能 的 第 一 步 摆 放 位 置 ， 
那么 就 不 存在 满意 的 家 具 摆 放 方法 。 否 则 , 我 们 最 终 将 终止 在 满意 的 摆 放 位 置 上 。 








然 这 个 算法 基本 上 是 蛮 力 的 , 但 是 它 并 不 直接 尝试 所 有 的 可 能 。 例 如 , 考虑 把 沙发 放 进 厨房 
的 各 种 摆 法 是 绝 不 会 尝试 的 。 许 多 其 他 坏 的 摆 放 方法 早 就 取消 了 , 因为 令 人 讨厌 的 摆 放 的 子 
集 是 知道 的 。 在 一 步 内 删除 一 大 组 可 能 性 的 做 法 叫做 裁剪 (pruning)。 

我 们 将 看 到 回 湖 算法 的 两 个 例子 。 第 一 个 是 计算 几何 中 的 问题 , 第 二 个 例子 阐述 在 诸如 
国际 象棋 和 西洋 跳棋 的 对 弈 中 如 何 计算 选取 行 棋 步 骤 的 问题 。 
10.5.1 收费 公路 重建 问题 

设 给 定 NN 个 点 pis Pov ots Pye 它们 位 于 工 轴 上 。z 是 pp 点 的 zx 坐标 。 进一步 假设 
ey = 0 以 及 这 些 点 从 左 到 右 给 出 。 这 N 个 点 确定 在 每 一 对 点 间 的 NCN = 1) 2 个 (不 必 是 惟一 
的 ) 形 如 |z -xz | (i 去 j) 的 距离 。 显然 , 如 果 给 定点 集 , 那么 容易 以 O( N2) 时 间 构造 距离 的 

kk 合 。 这 个 集合 将 不 是 排序 的 , 但 是 , 如 果 我 们 愿意 花 O(N?log N) 时 间 界 整理 , 那么 这 些 距 

离 也 可 以 被 排序 。 收 费 公路 重建 问题 (turnpike reconstruction problem) 是 从 这 些 距离 重新 构造 
一 个 点 集 。 它 在 物理 学 和 分 子 生物 学 (参见 为 更 专门 的 信息 提供 线索 的 参考 文献 ) 中 都 有 应 
JU. 这 个 名 称 得 自 于 对 美国 西海 岸 公路 上 那些 收 税 公路 出 口 的 模拟 。 正 像 大 数 分 解 比 乘法 困 
难 一 样 , 重建 问题 也 比 建造 问题 困难 。 没 有 人 能 够 给 出 一 个 算法 以 保证 在 多 项 式 时 间 内 完成 
计算 。 我 们 将 要 介绍 的 算法 一 般 以 O( N2log N ) 运 行 , 但 在 最 坏 情形 下 可 能 要 花费 指数 时 间 。 

当然 , 若 给 定 该 问题 的 一 个 解 , 则 可 以 通过 对 所 有 的 点 加 上 一 个 偏 移 量 而 构建 无 穷 多 其 
他 的 解 。 这 就 是 为 什么 我 们 一 定 要 将 第 一 个 点 置 于 0 处 以 及 构建 解 的 点 集 以 非 降 顺序 输出 的 
原因 。 

令 D 是 距离 的 集合 , 并 设 1D1= M= N(N -1)/2。 作为 例子 , 设 

D-11, 2, 2, 2, 3, 3, 3, 4, 5, 5, 5, 6, 7, 8, 101 

由 于 iD| = 15. 因此 我 们 知道 N=6 算法 以 置 zi= 0 开始 。 BA, rs 10, 因为 10 是 

D 中 最 大 的 元 素 。 将 10 从 D 中 删除 , 我们 得 到 的 点 和 剩 下 的 距离 如 下 图 所 示 。 
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x =0 x6 — 10 
D=}1, 2, 2, 2, 3, 3. 3, 4, 5, 5, 5, 6, 7, 8l 
剩 下 的 距离 中 最 大 的 是 8, 这 就 是 说 , BA rz: =2, 要 么 zs=8。 由 对 称 性 , 我 们 可 以 断 
定 这 种 选择 是 不 重要 的 , 因为 要 么 两 个 选择 都 引 向 解 (它们 互 为 镜像 ), 要 么 都 不 会 引 向 最 终 
的 解 ， 所 以 我 们 可 置 xs = 8 而 不 至 于 影响 问题 的 解 。 然后 从 D 中 删除 距离 re - zs = 2 和 
Xs -X=8, 得 到 


SS SS SSS 


x, =0 x5 =8 x = 10 
D=(I1, 2, 2, 3, 3, 3, 4, 5, 5, 5, 6, 7| 

下 一 步 是 不 明显 的 。 由 于 7 是 D 中 最 大 的 数 , 因此 要 么 zs=7, BA 73. 如 果 z4=7， 
那么 距离 re-7=3 和 zs-7=1 也 必须 出 现在 D 中 我 们 一 看 便 知 它们 确实 在 D P. 另 一 
方面 , 如 果 我 们 置 zx: =3, 那么 3- zi=3 和 xs-3=5 就 必须 在 D Po 这 些 距离 也 的 确 在 D 
"pz 因此 , 我 们 不 对 哪 种 选择 做 强求 。 这样, 我 们 尝试 其 中 的 一 种 看 是 省 它 导致 问题 的 解 。 如 
果 它 不 行 , 那么 我 们 退回 来 再 尝试 另外 的 那个 选择 。 尝 试 第 一 个 选择 我 们 置 rs= 7, 得 到 

————————————— 


x =0 x47 7x5 = 8 x, = 10 
D= (2, 2, 3. 3, 4, 5, 5, 5, 6! 


此 时 , 我 们 得 到 7,70, 2477, 7578 和 ze= 10. 现在 最 大 的 距离 是 6, 因此 要 么 za= 6， 
BA 1274, 但 是 , 如 果 r356, 那么 zi- zs=1, 这 是 不 可 能 的 , 因为 1 不 再 属于 D. 另 一 
方面 , 如 果 574, 那么 x; zo=4 和 rs- za=4, 这 也 是 不 可 能 的 , 因为 4 只 在 D 中 出 现 
一 次 。 因此 , 这 个 推导 思路 得 不 到 解 , 我 们 需要 回溯 。 

由 于 x4=7 不 能 产生 解 , 因此 我 们 尝试 z=3。 如 果 这 也 不 行 ,那么 我 们 停止 计算 并 报 
告 无 解 。 现在, 我 们 有 

+> 
x) =0 x =3 xs=8 x6 = 10 
D=|1, 2, 2.3, 3,4, 5, 5. 6! 


我 们 必须 再 一 次 在 zs=6 和 zx3=4 之 间 选 择 。x3=4 是 不 可 能 的 , AHD 只 出 现 一 个 4， 
而 该 选择 意味 着 要 有 两 个 。z4 = 6 是 可 能 的 , 于 是 我 们 得 到 


x =0 x, =3 x4=6 xs =8 x = 10 
Dzil.2. 3, 5, 5} 
惟 -- 剩 下 的 选择 是 zx3=5, 这 是 可 以 的 , 因为 它 使 得 D 成 为 空 集 , 因此 我 们 得 到 问题 的 一 个 解 。 
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x; -0 xij73 xji-5$x4- 6 xs=8 x6 = 10 
D=\t 
图 10-63 是 一 棵 决策 树 , 代表 为 得 到 解 而 采取 的 行动 。 这 里 , 我 们 没有 对 分 支 作 标记 ， 
而 是 把 标记 放 在 了 分 支 的 目的 节点 上 。 带 有 一 个 星 号 的 节点 表示 这 些 所 选 的 点 与 给 定 的 距离 


不 一 致 ; 带 有 两 个 星 号 的 节点 只 有 将 不 可 能 的 节点 作为 儿子 节点 , 因此 表示 一 条 不 正确 的 
Ws. 





图 10.63. 收费 公路 重建 问题 的 决策 树 


实现 这 个 算法 的 伪 代 码 大 部 分 都 很 简单 。 驱 动 例 程 Turnpike 如 图 10-64 所 示 。 它 接收 点 
的 数组 X( 不 需要 初始 化 ) , 距离 的 数组 D 和 N。@ 如 果 找 到 一 个 解 , 则 返回 true, 答案 将 被 放 
到 X 中 , 而 了 将 是 空 集 。 和 否则 , 返回 false，X 将 是 未 定义 的 , 距离 数组 将 是 未 触及 的 。 该 例 
程 如 上 所 述 给 z1，xw-1 和 zw RTM, 修改 了 D, 并 且 调用 了 回 淹 算法 Place 以 放置 其 余 的 
点 。 我 们 假设 为 保证 | D|= N(N - 1)/2 已 经 进行 了 检验 。 








int 
Turnpike int X[ J, DistSet D, int N ) 
{ 
A Ip XE 1] = 0; 
PES XL N ] = DeleteMax( D ); 
fti X( N - 1] = DeleteMax( D ); 
/* 4 iFCXEN] - X N- 11€ 0) 
/* st Remove( XE NJ - XEN - 1], D); 
/* 6*/ return Place( X, D, N, 2, N - 22: 
} 
else 
amy return False; 
) 








图 10-64 收费 公路 重建 算法 : 驱动 例 程 ( 伪 代码 ) 


O 为 使 所 举 的 例 了 方便 起 见 ,我 们 使 用 了 单字 母 变量 名 ， 一 般 说 来 这 不 是 好 习惯 为 了 简单 , 我 们 也 不 给 出 变量 的 
类 型 。 


算法 设计 捞 巧 
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更 困难 的 部 分 是 回溯 算法 , 如 图 10-65 所 示 。 与 大 多 数 回潮 算法 一 样 , 最 方便 的 实现 方 
法 是 递归 。 我 们 传递 同样 的 参数 以 及 界 Left 和 Right ;zich ，…，zRigh 是 我 们 试图 放置 的 点 的 
x 坐标 。 如 果 DEZE Left > Right), 那么 解 已 经 找到 , 我 们 可 以 返回 。 EW, 我 们 首先 尝 
试 使 zpig = Dmar。 如 果 所 有 适当 的 距离 都 (以 正确 的 值 ) 出 现 , 那么 尝试 性 地 放 上 这 一 点 , 删除 
这 些 距离 ,并 尝试 从 Left 到 Right -1 填 和 人 。 如 果 这 些 距离 不 出 现 , 或 者 从 Left 到 Right -1 填 
入 尝试 失败 , 那么 我 们 尝试 置 zup = zw - dnars 使 用 类 似 的 方法 。 如 果 这 样 不 行 , 则 问题 无 
解 ;否则 , 一 个 解 已 经 找到 , 而 这 个 信息 最 终 通过 return 语句 和 X 数组 传递 回 Turnpike. 
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/* Backtracking algorithm to place the points */ 
/* X[ Left ... 
/* XL 1... Left - 1] and X[ Right + 1... NJ */ 
/* are already tentatively placed */ 

/* If Place returns True, */ 

/* then X[ Left ... Right ] will have values */ 


int 
Place( int X( ], DistSet D, int N, int Left, int Right ) 
{ 
int DMax, Found = False; 
if( D is empty ) 
return True; 
DMax = FindMax( D ); 


/* Check if setting X[ Right ] = DMax is feasible */ 
SC) XL j ] - Max | € D 


) 


/* 1f first attempt failed, try to see if setting */ 
/* X( Left ] = XL N ] - DMax is feasible */ 
fC !Found & C | XEN J - OMax - XL j ) | € D 


{ 


) 
return Found; 


X[ Right ] = DMax; /* Try X[ Right ) = DMax */ 
for(1 = j «Left, Right <j = N) 


l 
Found = Place( X, D, N, Left, Right - 1); 


if( IFound ) /* Backtrack */ 
for( 1 = j < Left, Right < j < N) /* Undo deletion */ 


X[ Left ] = X[ N ] - DMax; /* Same logic as before */ 
for(1 < j < Left, Right <j < N 


Found = Place( X, D, N, Left + 1, Right ); 


fC [Found ) /* Backtrack */ 


Right ] */ 


for all 1 < j < Left and Right < j = N) 


Delete( | X[ j ] - DMax |, D ); 


Insert( | XL j ] - DMax |, O ); 


for all 1 < j < Left and Right <j = N) ) 
) 
DeleteC | X[ N J - DMax - XL j 1 1. 02: 


for( 1 s j < Left, Right <j s N) /* Undo */ 
Insert( | XE N ] - DMax - XL j ) 1,0); 








图 10-65 “收费 公路 重建 算法 : ELAS AERC Pf) 


算法 的 分 析 涉及 两 个 因素 。 设 第 9 行 到 第 11 行 以 及 第 18 行 到 第 20 行 从 未 执行 。 我 们 可 
以 把 D 作为 平衡 二 又 查找 (或 伸展 ) 树 保存 (当然 , 这 需要 对 代码 做 些 修改 )。 如 果 我 们 从 未 回 
Bi, 那么 最 多 有 O(N2) 次 操作 涉及 D, 如 在 第 4 £5. 28 12 到 13 行 中 蕴含 的 删除 和 Find, S 
然 这 是 对 删除 提出 的 ,因为 D 有 O(N2) 个 元 素 而 没有 元 素 被 重新 插入。 每 次 对 Place 的 调用 
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最 多 用 到 2N 次 Find, 而 由 于 Place 在 该 分 析 中 从 未 回 湖 , 因此 最 多 可 以 有 2N? 次 Find, 于 
是 , 如 果 没有 回 湖 , 那么 运行 时 间 为 O( N?log N)。 

当然 , 回 湖 是 要 发 生 的 。 如 果 回 淹 反 复发 生 , 那么 算法 的 性 能 就 要 受到 影响 。 我 们 可 以 
通过 构建 病态 的 情形 迫使 它 发 生 。 经 验证 明 , 如 果 点 的 整数 坐标 在 [0，D, ] 均 匀 地 和 随机 地 
分 布 , 其 中 D = 9(N2), 那么 在 整个 算法 期 间 几 乎 肯定 最 多 执行 一 次 回溯 。 
10.5.2 博弈 

作为 最 后 一 个 应 用 , 我 们 将 考虑 计算 机 用 来 进行 战略 游戏 的 策略 , 如 西洋 跳棋 或 国际 象棋 。 
作为 一 个 例子 , 我 们 将 使 用 简单 得 多 的 三 连 游戏 棋 (tic tac toe HERE, 因为 它 使 得 想法 更 容易 表述 。 

如 果 双 方 都 玩 到 最 优 , 那么 三 连 游戏 棋 就 是 平局 。 通 过 进行 仔细 的 逐个 情况 的 分 析 , 构 
造 一 个 从 不 输 棋 而 且 当 机 会 出 现时 总 能 赢 棋 的 算法 并 不 是 困难 的 事 。 这 所 以 能 够 做 到 是 因为 
- 些 位 置 是 已 知 的 陷阱 , 可 以 通过 查 表 来 处 理 。 另 外 一 些 方法 , 如 当中 央 的 方 格 可 用 时 占据 
该 方 格 , 可 以 使 得 分 析 更 简单 。 如 果 完 成 了 分 析 , 那么 通过 使 用 一 个 表 我 们 总 可 以 只 根据 当 
前 位 置 选择 一 步 棋 。 当 然 , 这 种 方法 需要 程序 员 而 不 是 计算 机 来 进行 大 部 分 的 思考 。 
极 小 极 大 策略 

更 一 般 的 策略 是 使 用 一 个 赋值 函数 来 给 一 个 位 置 的 “好 坏 ” 定 值 。 能 使 计算 机 获胜 的 位 
置 可 以 得 到 值 + 1; 平 局 可 得 到 0; 使 计算 机 输 棋 的 位 置 得 到 值 - 1。 通 过 考察 盘面 能 够 确定 这 
局 棋 输 赢 的 位 置 叫做 终端 位 置 (terminal position) o 

如 果 一 个 位 置 不 是 终端 位 置 , 那么 该 位 置 的 值 通过 递归 地 假设 双方 最 优 棋 步 而 确定 。 这 
叫做 极 小 极 大 (minimax) 策 略 , 因为 下 棋 的 一 方 (人 ) 试 图 使 这 个 位 置 的 值 极 小 化 ， 而 另 一 方 
(计算 机 ) 却 要 使 它 的 值 极 大 。 

位 置 PP 的 后 继 位 置 (successor position) 是 通过 从 已 走 一 步 棋 可 以 达到 的 任何 位 置 已 - 如 
果 当 在 某 个 位 置 已 计算 机 要 走 棋 , 那么 它 递 归 地 求 出 所 有 的 后 继 位 置 的 值 。 计 算 机 选择 具有 
最 大 值 的 一 步行 棋 , 这 就 是 已 的 值 。 为 了 得 到 任意 后 继 位 置 P, 的 值 , 要 递归 地 算出 P, 的 所 
有 后 继 位 置 的 值 ,然后 选取 其 中 最 小 的 值 。 这 个 最 小 值 代表 行 棋 人 一 方 最 赞成 的 应 招 。 

图 10-66 中 的 程序 使 得 计算 机 的 策略 更 清楚 。 第 1 行 到 第 4 行 直接 给 赢 棋 或 平局 赋值 。 
如 果 这 两 个 情况 都 不 适用 , 那么 这 个 位 置 就 是 非 终端 位 置 。 注 意 到 Value 应 该 包括 所 有 可 能 
后 继 位 置 的 最 大 值 , 第 5 行 把 它 初始 化 为 最 小 的 可 能 值 , 第 6 行 到 第 13 行 的 循环 则 为 了 改进 
而 进行 搜索 。 每 一 个 后 继 位 置 递 归 地 依次 由 第 8 到 第 10 行 算出 值 来 。 因 为 我 们 将 看 到 过 程 
FindHumanMove 调用 FindCompMove, 所 以 这 是 递归 的 。 如 果 下 棋 人 对 一 步 棋 的 应 招 给 计算 
机 留 下 比 计算 机 在 前 面 最 佳 棋 步 所 得 到 的 位 置 更 好 的 位 置 , 那么 Value 和 BestMove 将 被 更 
dí. 图 10-67 显示 的 是 下 棋 人 选择 棋 步 的 过 程 。 除 了 下 棋 人 选择 的 棋 步 导致 最 低 值 的 位 置 
外 , 所 有 的 逻辑 实际 上 都 是 相同 的 。 事 实 上 , 通过 传递 一 个 额外 的 变量 不 难 把 这 两 个 过 程 合 
并 成 一 个 , 这 个 额外 变量 指出 该 谁 走 棋 。 这 样 一 来 确实 使 得 程序 多 少 有 些 难于 读 慌 了, 因此 
我 们 就 停留 在 两 个 分 开 的 例 程 的 阶段 。 

由 于 这 两 个 例 程 必 须要 传 回 位 置 的 值 和 最 佳 的 棋 步 ,因此 我 们 通过 使 用 指针 来 传递 将 得 
到 这 些 信息 的 两 个 变量 的 地 址 。 现 在 , 最 后 的 两 个 参数 现在 回答 的 就 不 是 “是 什么 ”而 是 “在 
"Wu" T. 

作为 一 个 例子 , 在 图 10-66 中 BestMove 包含 可 以 放置 最 佳 棋 步 的 地 址 。FindCompMove 
通过 访问 * BestMove 可 以 考查 或 修改 这 个 地 址 中 的 数据 。 第 9 行 指出 主 调 例 程 应 该 怎样 运 
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行 。 由 于 调用 程序 有 两 个 准备 存放 数据 的 整数 ,而 FindHumanMove 只 要 这 两 个 整数 的 地 址 ， 
因此 这 里 用 到 了 地 址 操作 符 &。 





/* Recursive procedure to find best move for computer */ 

/* BestMove points to a number from 1 to 9 indicating square */ 
/* Possible evaluations satisfy CompLoss « Draw « CompWin */ 
/* Complementary procedure FindHumanMove is Figure 10.67 */ 

/* Board is an array and thus can be changed by Place */ 


void 
Ti BoardType Board, int *BestMove, int *Value ) 


int Dc, i, Response; /* Dc means don't care */ 


rj if( FullBoard( Board ) ) 
/* 2*/ "Value = Draw; 

else 
/* 3*/ if( ImmediateCompWin( Board, BestMove ) ) 
Jan *Value = Compwin; 

else 
Z9 *Value = CompLoss; 
/* 6*/ for( i = 1; i <= 9; i++ ) /* Try each square */ 

{ 
tr ifC IsEmpty( Board, i ) ) 
{ 
/* 8*/ Place( Board, i, Comp ); 
/* 9*/ FindHumanMove( Board, &0c, &Response ); 
/n0*/ Unplace( Board, i ); /* Restore Board */ 
i if( Response » *Value ) 
{ 
/* Update best move */ 

/n *Value = Response; 
f *BestMove = i; 


) 
) 
) 











图 10-66 极 小 极 大 三 连 游戏 棋 算 法 : 计算 机 的 选择 


如 果 在 第 9 行 不 用 操作 符 &, 并 且 De 和 Response 均 为 零 (这 是 典型 的 未 初始 化 数据 ), 那 
么 FindHumanMove 将 试图 把 最 佳 棋 步 和 位 置 值 放 到 内 存 位 置 零 处。 当然 ,这 不 是 我 们 想 要 的 ， 
并 将 几乎 肯定 导致 程序 衣 溃 ( 试 一 坛 !)。 这 是 在 使 用 库 函 数 中 的 scanf 族 函数 时 最 常见 的 错误 。 

我 们 把 一 些 支持 例 程 留 作 一 道 练习 题 。 代价 最 高 的 计算 是 需要 计算 机 开局 的 情形 。 由 于 在 
这 个 阶段 棋局 处 于 平局 的 形势 , 因此 计算 机 选择 方 格 1.9 需 要 考查 的 位 置 总 共有 97 162 4, 计 
算 要 花费 几 秒 。 没 有 优化 程序 的 打算 。 如 果 下 棋 人 选择 中 央 方 格 , 那么 当 计算 机 走 第 二 步 棋 的 
时 候 , 所 要 考查 的 位 置 的 个 数 是 5 185 个 ,当下 棋 人 选择 一 个 角 上 的 方 格 时 ,计算 机 所 要 考查 的 
位 置 是 9 761 个 , 而 当下 棋 人 选择 非 角 的 边 上 的 方 格 时 计算 机 要 考查 13 233 个 位 置 。 

对 于 更 复杂 的 游戏 , 如 西洋 跳棋 和 国际 象棋 ,搜索 到 终端 节点 的 全 部 棋 步 显然 是 不 可 行 
的 ,9 在 这 种 情况 下 , 我 们 在 达到 递归 的 某 个 深度 之 后 只 能 停止 搜索 。 递 归 停止 处 的 节点 则 成 





O 我 们 将 方 格 从 棋盘 左上 角 开始 向 右 编 号 。 不 过 , 这 只 对 支持 例 程 是 重要 的 。 
O 据 估计 , 假如 对 下 模 进 行 这 种 搜索 ,那么 对 于 第 一 步 棋 至 少 有 10'” 个 位 置 需要 考查 。 即使 是 本 节 稍 后 描述 的 改 
进 方法 结合 使 用 , 这 个 数字 也 不 能 降低 到 实用 的 水 平 。 
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为 终端 节点 。 这 些 终端 节点 的 值 由 一 个 估计 位 置 的 值 的 函数 计算 得 出 。 例如 , 在 一 个 下 棋 程 
序 中 , 求 值 函 数 计量 诸如 棋子 和 位 置 因素 的 相对 量 和 强度 这 样 一 些 变量 求 值 函数 对 于 成 功 
是 至 关 重 要 的 ， 因 为 计算 机 的 行 棋 选 步 是 基于 将 这 个 函数 极 大 化 。 最 好 的 计算 机 下 棋 程序 的 
求 值 函数 惊人 的 复杂 。 








void 
FindHumanMove( BoardType Board, int *BestMove, int “Value ) 
( 
imt Dc, i, Response; /* Dc means don't care */ 
pav if( FullBoard( Board ) ) 
PA *Value = Draw; 
else 
t3 if( ImmediateHumanWin( Board, BestMove ) ) 
ye 4/ *Value = CorpLoss; 
else 
t 
Jn *Value = CompWin; 
/* eu for(i = 1; i <= 9; i++ ) /* Try each square */ 
( 
Hm if( Istmpty( Board, i ) ) 
[ 
/* 8 Place( Board, i, Human ); 
J* 9j FindCompMove( Board, &Dc, &Response ); 
/*10*/ Unplace( Board, i ); /* Restore board */ 
rus if( Response < *Value ) 
/* Update best move */ 
yn] “value = Response; 
7913*/ *BestMove = i; 
} 
) 
} 
) 
) 





1810-67. 极 小 极 大 三 连 游戏 棋 算 法 : 人 的 选择 


然而 , 对 于 计算 机 下 棋 , 一 个 最 重要 的 因素 看 来 是 程序 能 够 向 前 看 的 棋 步 的 数目 。 有 时 
我 们 称 之 为 层 (ply); 它 等 于 递归 的 深度 。 为 了 实现 这 个 功能 , 需要 给 予 搜索 例 程 一 个 额外 的 
参数 。 

在 对 弈 程序 中 增加 向 前 看 步 因素 的 基本 方法 是 提出 一 些 方法 ,这些 方法 对 更 少 的 节点 求 
值 但 却 不 委 失 任何 信息 。 我 们 已 经 看 到 的 一 种 方法 是 使 用 一 个 表 来 记录 所 有 已 经 被 计算 过 值 
的 位 置 。 例 如 , 在 搜索 第 一 步 棋 的 过 程 中 , 程序 将 考查 图 10-68 中 的 一 些 位 置 。 如 果 这 些 位 
置 的 值 被 存储 了 , 那么 一 个 位 置 在 第 二 次 出 现时 就 不 必 再 重新 计算 ; 它 基 本 上 变 成 了 一 个 终 
端 位 置 。 记 录 这 些 信息 的 数据 结构 叫做 置换 表 (transposition table); 它 几乎 总 可 通过 和 散 列 来 实 
现 。 在 许多 情况 下 , 这 可 以 节省 大 量 的 计算 。 例 如 , 在 一 盘 棋 的 最 后 阶段 ， 此 时 相对 来 说 只 有 
很 少 的 棋子 , 时 间 的 节省 使 得 一 步 搜索 可 以 进行 到 更 深 的 若干 层 。 

a-p RI 

人 们 一 般 能 够 取得 的 最 重要 的 改进 称 为 cB AH (a pruning). RI 10-69 显示 在 一 盘 假 
起 的 棋局 中 用 来 给 某 些 某 个 假设 的 位 置 求 值 的 一 些 递归 调用 的 迹 。 通 常 这 叫做 一 棵 博 蛮 树 
(game tree)。( 到 现在 为 止 我 们 一 直 回避 使 用 这 个 术语 , 因为 它 多 少 有 些 令 人 误解 : 没有 树 是 
由 该 算法 具体 构造 的 。 博 弈 树 只 是 一 个 抽象 的 概念 。) 这 棵 博弈 树 的 值 为 44。 
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图 10-68 ”到 达 相同 位 置 的 两 种 搜索 





图 10-69 一 棵 假想 的 博弈 树 


图 10-70 显示 同一 棵 博弈 树 的 求 值 , 它 有 一 些 尚未 求 值 的 节点 。 几 乎 有 一 半 的 终端 节点 
没有 被 检验 。 我 们 证 明 计算 它们 的 值 将 不 改变 树 根 的 值 。 





图 10-70 “一 棵 被 裁减 的 博弈 树 


首先 , 考虑 节点 D。 图 10-71 显示 在 给 D 求 值 时 已 经 搜集 到 的 信息 。 此 时 , 我 们 仍然 处 
在 FindHumanMove 中 并 正在 打算 对 D 调用 FindCompMove。 然而 , 我 们 已 经 知道 FindHu- 
manMove 最 多 将 返回 40, 因为 它 是 一 个 min 节点 。 另 一 方面 , 它 的 max 节点 父 节点 已 经 找 
到 一 个 保证 44 的 顺序 。 注意 , D 无 论 如 何 也 不 可 能 增加 这 个 值 。 因此 ，D 不 需要 求 值 。 该 树 
的 这 个 裁减 叫做 a 裁减。 同样 的 情况 出 现在 节点 Bo 为 了 实现 “ 裁减， FindCompMove 将 它 的 
尝试 性 的 极 大 值 (a) 传 递 给 FindHumanMove- 如 果 FindHumanMove 的 尝试 性 的 极 小 值 低 于 
这 个 值 , 那么 FindHumanMove 立即 返回 。 
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图 10-71 标记 ”*?" 的 节点 是 不 重要 的 


类 似 的 情况 也 发 生 在 节点 A 和 C。 这 一 次 , 我 们 在 FindCompMove 的 中 间 , 并 且 正 要 调 
用 FindHumanMove 以 计算 C 的 值 。 图 10-72 显示 在 节点 C 遇 到 的 这 种 情况 。 不 过 , 调用 了 
FindCompMove 的 FindHumanMove 在 min 层 上 , 已 经 确定 它 能 够 迫使 一 个 值 最 高 到 44( 注 
意 , 对 于 下 棋 人 这 一 方 低 的 值 是 好 的 )。 由 于 FindCompMove 有 一 个 尝试 性 的 最 大 值 68, 因此 
CE min 层 上 怎么 做 也 不 会 影响 到 这 个 结果 。 因 此 ，C 不 应 该 求 值 。 这 种 类 型 的 裁减 叫做 有 
裁减 ; 它 是 a 裁 碱 的 对 称 形式 。 当 两 种 方法 结合 起 来 时 我 们 得 到 o- 9 RW. 


EA) Min 
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810-72 标记 “?” 的 节点 是 不 重要 的 


实现 o-B 裁减 所 需 代码 少 得 惊人 。 图 10-73 显示 的 是 a-B 裁减 方案 的 一 半 ( 减 去 类 型 说 
明 )。 你 应 该 能 够 写 出 另 一 半 代码 而 不 会 遇 到 任何 麻烦 。 

为 了 充分 利用 cB 裁减, 对 弈 程序 通常 尽量 对 非 终端 节点 应 用 求 值 函数 , 力图 把 最 好 的 
棋 步 早 一 些 放 到 搜索 范围 内 。 这 样 的 结果 甚至 比 人 们 从 随机 顺序 的 节点 所 期 望 的 裁减 还 要 裁 
减 得 多 。 其 他 一 些 方法 , 像 以 积极 的 方式 进行 更 深入 的 搜索 也 在 使 用 。 

在 实践 中 , op 裁减 把 搜索 限制 在 只 有 OG N ) 个 节点 上 , 这 里 N 是 整个 博弈 树 的 大 小 。 
这 是 巨大 的 节约 ， 它 意味 着 使 用 a- 裁减 的 搜索 与 非 裁减 树 相 比 能 够 进行 到 两 倍 的 深度 。 我 
们 的 三 连 游戏 棋 例 子 是 不 理想 的 ,因为 存在 太 多 相同 的 值 , 但 即使 是 这 样 ， 最 初 对 97 162 个 
节点 的 搜索 还 是 被 减 到 了 4 493 个 节点 (这 些 计数 包括 非 终端 节点 )。 

在 许多 对 弈 领域 , 计算 机 跻身 于 世界 最 优秀 弈 者 之 列 。 所 使 用 的 方法 是 非常 有 趣 的 ， 而 
且 可 以 应 用 到 一 些 更 严肃 的 问题 上 。 更 多 的 细节 可 见 参考 文献。 
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/* Same as before, but perform alpha-beta pruning */ 

/* The main routine should make the call with */ 

/* Alpha = CompLoss and Beta = CompWin */ 

void 

FindCompMove( BoardType Board, int *BestMove, int *Value, 
i int Alpha, int Beta ) 


int Dc, i, Response; /* Dc means don't care */ 


EVI if( FullBoard( Board ) ) 
/* 27 *Value = Draw; 

else 
EU if( ImnediateCompwin( Board, BestMove ) ) 
/* nj "Value = CompWin; 

else 

{ 
/e s" “Value = Alpha; 
/* 6n for(i = 1; i <= 9 & "Value < Beta; i++ ) 

{ 
nm if( IsEmpty( Board, i ) ) 
[ 
/* 8*7 Place( Board, i, Comp ); 
/* 9*7 FindHumanMove( Board, &)c, &Response, 
*Value, Beta ); 
/*105/ Unplace( Board, i ); /* Restore board */ 
rus if( Response > *Value ) 
{ 


/* Update best move */ 
/*12*/ "Value = Response; 
/3*/ *BestMove = i; 
) 
) 
) 
) 





) 








图 10-73. 带 有 op RRR RAS EMRE: 计算 机 棋 步 的 选择 


总 结 


这 一 章 阐述 了 在 算法 设计 中 发 现 的 五 个 最 普通 的 方法 。 当 面临 一 个 问题 的 时 候 ， 花 些 时 
间 考察 一 下 这 些 方法 能 否 适用 是 值得 的 。 算 法 的 适当 选择 , 结合 数据 结构 的 审慎 使 用 ,常常 
能 够 迅速 导致 问题 的 高 效 解决 。 


练习 
10.1 证 明 贪 束 算法 可 以 将 多 处 理 器 作业 调度 工作 的 平均 完成 时 间 最 小 化 。 
10.2. 设 作业 jas j2,…, JN 为 输入 , 其 中 的 每 一 个 作业 都 要 花 一 个 时 间 单位 来 完成 。 如 
果 每 个 作业 方 在 时 间 限度 # 内 完成 , 那么 将 挣 得 di 美元 , 但 若 在 时 间 限 度 以 后 完 
成 则 挣 不 到 钱 。 
a. 给 出 一 个 O(N?) 贪 禁 算 法 求解 该 问题 。 
x cb. 修改 你 的 算法 以 得 到 O(N log N) 的 时 间 界 。 提示 : 时 间 界 完全 归 因 于 将 作业 
按照 金额 排序 。 算 法 的 其 余部 分 可 以 使 用 不 相交 集 数据 结构 以 o(N log N) 


实现 。 
10.3 一 个 文件 以 下 列 频率 包含 冒号 、 空 格 、 换 行 (newline)、 逗 号 和 数字 : 冒号 (100)， 
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空格 (605), 换行 (100), 32 5-(705) , 0(431), 1(242), 2(176), 3(59), 4(185), 5 
(250), 6(174), 7(199), 8(205), 9(217)。 构造 其 Huffman 编码 。 

编码 文件 有 一 部 分 必须 是 指示 Huffman 编码 的 文件 头 。 给 出 一 种 方法 构建 大 小 最 
多 为 O(NN) 的 文件 头 ( 除 符号 外 ), 其 中 N 是 符号 的 个 数 。 

证 明 Huffman 编码 生成 最 优 的 前 绥 码 。 

证 明 : 如 果 符 号 是 按照 频率 排序 的 , ABZ Huffman 算法 可 以 以 线性 时 间 实现 。 

用 Huffman 算法 写 出 一 个 程序 实现 文件 压缩 (和 解压 缩 )。 


证 明 : 通过 考虑 下 述 项 的 序列 可 以 迫使 任意 联机 装 箱 算法 至 少 使 用 立 最 优 箱 T 


NN 项 大 小 为 了 -2e，N 项 大 小 为 二 +e，N OCA e 
解释 如 何以 时 间 O(N log N) 实 现 首 次 适合 算法 和 最 佳 适 合算 法 。 
指出 在 10.1.3 节 讨 论 的 所 有 装 箱 方法 对 输入 0.42, 0.25, 0.27,0.07, 0.72, 
0.86, 0.09, 0.44, 0.50, 0.68, 0.73, 0.31, 0.78, 0.17, 0.79, 0.37, 0.73, 
0.23, 0.30 的 操作 。 
编写 一 个 程序 比较 各 种 装 箱 试探 方法 (在 时 间 上 和 所 用 箱子 的 数量 上 ) 的 性 能 。 
证 明定 理 10.7。 
证 明定 理 10.8。 
将 N 个 点 放 人 一 个 单位 方 格 中 。 证 明 最 近 一 对 点 之 间 的 距离 为 O(N 2)。 
论证 对 于 最 近 点 算法 , 在 带 内 的 平均 点 数 是 O(VN)。 提示: 利用 前 一 道 练习 的 结 
果 。 
编写 一 个 程序 实现 最 近 点 对 算法 。 
使 用 三 分 化 中 项 的 中 项 方法 ,快速 选择 算法 的 渐 近 运 行 时 间 是 多 少 ? 
证 明 七 分 化 中 项 的 中 项 的 快速 选择 算法 是 线性 的 。 为 什么 证 明 中 不 用 七 分 化 中 项 
的 中 项 方法 ? 
实现 第 7 章 中 的 快速 选择 算法 ,快速 选择 使 用 五 分 化 中 项 的 中 项 方法 ， 并 实现 
10.2.3 节 未 尾 的 抽样 算法 。 比 较 它们 的 运行 时 间 。 
许多 用 于 计算 五 分 化 中 项 的 中 项 的 信息 都 被 丢弃 了 。 指 出 怎样 通过 更 仔细 地 使 用 
这 些 信息 减少 比较 的 次 数 。 
完成 在 10.2.3 节 末尾 描述 的 抽样 算法 的 分 析 , 并 解释 6 和 s 的 值 如 何 选择 。 
指出 如 何 用 递归 乘 算法 计算 XY, 其 中 X 21234, Y =4321。 要 包括 所 有 的 递归 
计算 。 
指出 如 何 只 使 用 三 次 乘法 将 两 个 复数 X=a + bi 和 Y=c + di 相 乘 。 
a. 证 明 

X,Yg + XRYL= (Xt + Xr) (Yı + Yr) — XLYL ~ XrYr 
b. 它 给 出 进行 N- 比 特 的 数 的 乘法 的 O(N!'”) 算 法 。 将 该 方法 与 课文 中 的 解法 进 

行 比较 。 


*a. 指出 如 何 通过 求解 大 约 为 原 问题 三 分 之 一 大 小 的 五 个 问题 来 完成 两 个 数 的 乘 


法 。 


x *b. 将 该 问题 推广 得 出 一 个 O(N''*) 的 算法 , 其 中 。>0 为 任意 参数 。 
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10.26 
10.27 


10.28 


10.29 


10.30 
10.31 


* 10.32 


* 10.33 


10.34 
10.35 
10.36 
10.37 
10.38 


10.39 


c. 在 5 问 中 的 算法 比 O(N log N) 好 吗 ? 
为 什么 Strassen 算法 在 2 x 2 矩阵 的 乘法 中 不 使 用 可 交换 性 是 重要 的 。 
两 个 70 x 70 矩阵 可 以 使 用 143 640 次 乘法 相 乘 。 指 出 这 如 何 能 够 用 于 改进 由 
Strassen 算法 给 出 的 界 。 
计算 A14243444sAs 的 最 优 方法 是 什么 ? 其 中 , 这 些 矩 阵 的 阶 数 为 41: 10x20, 
A2: 20X1, As: 1X40, A4: 40x5, As: 5X30, As: 30X15. 
证 明 下 列 贪 禁 算 法 均 不 能 进行 链 式 矩阵 乘法 。 在 每 一 步 
a. 计算 最 节省 的 乘法 。 
b. 计算 最 昂贵 的 乘法 。 
c. 计算 两 个 矩阵 M; 和 M, ,1 之 间 的 乘法 使 得 在 M; 中 的 列 数 最 小 (使 用 上 面 法 则 
之 一 je 
编写 一 个 程序 计算 矩阵 乘法 的 最 佳 顺序 。 注 意 , 程序 要 显示 具体 的 顺序 。 
指出 下 列 单间 的 最 优 二 叉 查找 树 ,， 其 中 括号 内 是 单词 出 现 的 频率 : a(0.18), and 
(0.19), 1(0.23), it(0.21), or(0.19)。 
将 最 优 二 又 查找 树 算 法 扩展 到 可 以 对 不 成 功 的 搜索 进行 。 在 这 种 情况 下 ，9i 是 对 
ERR w< W< w+1 的 单词 W 执行 一 次 查找 的 概率 , 其 中 IKN qo 是 对 
W< wi 的 单词 W 执行 一 次 查找 的 概率 , 而 gy 是 对 W > ww 执行 一 次 查找 的 概 
LES DIM + Dog = le 
设 c, ;=0, 否则 
C, j= Wijt min (Crit €) 

dE W 满足 四 边 形 不 等 式 (quadrangle inequality), 即 对 所 有 的 ii^ <j’, 

Wijt Wey Wy, + Wi; 
进一步 假设 W 是 单调 的 : 如 果 S Rm S. BA Wi SW, yo 
a. 证 明 C 满足 四 边 形 不 等 式 。 
b. 4 Ri, ,是 使 Ci, -1t C,, ;达到 最 小 值 的 最 大 的 k( 就 是 说 ， 在 相等 的 情形 下 选择 

ROGO b). 证 明 : 
Ri, j€R;, j SRi. itl 

c. 证 明 R 沿 着 每 一 行 和 列 是 非 减 的 。 
d. 用 它 证 明 C 中 所 有 的 项 可 以 以 O(N?) 计 算 。 
e. 使 用 这 些 技巧 可 以 以 O(N2) 解 决 哪个 动态 规划 算法 ? 
编写 一 个 例 程 从 10.3.4 节 中 的 算法 重新 构造 那些 最 短路 径 。 
在 你 的 计算 机 系统 上 考查 随机 数 发 生 器 。 其 随机 性 如 何 ? 
编写 在 跳 路 表 中 执行 插入 、 删 除 以 及 查找 的 例 程 。 
给 出 跳 路 表 操 作 的 期 望 时 间 为 O(log N) 的 正式 证 明 。 
图 10-74 显示 抛 一 枚 硬币 的 例 程 , 假设 rand 返回 一 个 整数 (这 在 许多 系统 中 常 
见 )。 如 果 随机 数 发 生 器 使 用 形 如 M = 22 的 模 (遗憾 的 是 这 在 许多 系统 上 流行 )， 
那么 那些 跳跃 表 算法 预期 的 性 能 如 何 ? 
a. FARRER ERS 230=1 (mod 341) 。 
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10.40 
10.41 


10.42 
10.43 


一 一 一 一 一 一 一 一 一 
| enum CoinSide ( Heads, Tails 3; 
typedef enum CoinSide CoinSide; 


CoinSide 
Flip( void ) 
1 


ifC C rand( ) X 2) = 0) 
return Heads; 

else 
return Tails; 








图 10-74 ”有 问题 的 抛 币 器 (程序 ) 


b. 指出 随机 化 素性 测试 对 于 N = 561 并 伴 有 A 的 多 个 选择 是 如 何 工作 的 。 

实现 收费 公路 重建 算法 。 

如 果 两 个 点 集 产生 相同 的 距离 集合 而 不 彼此 转换 ,那么 这 两 个 点 集 称 为 是 同 度 的 
(homometric)。 下 列 距离 集合 给 出 两 个 不 同 的 点 集 : 11, 2, 3, 4, 5, 6, 7, 8,9, 
10, 11, 12, 13, 16, 171 。 求 出 这 两 个 点 集 。 

扩展 重建 算法 使 给 定 一 个 距离 集合 找 出 所 有 的 同 度 点 集 。 

指出 图 10-75 中 的 树 的 a-B 裁减 的 结果 。 





10.44 


10.45 
10.46 


*10.47 


*10.48 


10-75 ÆR, 该 树 可 以 裁减 


a. 图 10-73 中 的 程序 实现 a 裁减 还 是 B 裁减 ? 

b. 实现 与 其 互补 的 例 程 。 

写 出 tic-tac-toe 棋 剩 下 的 过 程 。 

— I IBI Ie] A (one-dimensional circle packing problem) 如 下 : 有 N 个 半径 分 别 是 
ris ray cms ry 的 圆 。 将 这 些 圆 装 到 一 个 盒子 中 ， 使 得 每 个 圆 都 与 盒子 的 底 边 相 
切 , 圆 的 排列 按 原来 的 顺序 。 该 问题 是 找 出 最 小 尺寸 的 盒子 的 宽度 。 图 10-76 显示 
一 个 例子 , 圆 的 半径 分 别 为 2, 1, 20 最 小 尺寸 盒子 的 宽度 为 4+ 4V2。 

设 无 向 图 G 的 边 满足 三 角形 不 等 式 : cv, ,+ cv uA Cu wo 指出 如 何 计算 价值 最 多 
为 最 优 路 径 两 售 的 旅行 售货员 游程 。 提示: 构造 最 小 生成 树 。 

假设 你 是 邀请 赛 的 经 理 ,需要 安排 N = 2" 个 运动 员 间 一 轮 罗 宾 邀 请 赛 (robin tour- 
nament)。 在 这 次 邀请 赛 上 , 每 人 每 天 恰好 打 一 场 比赛 ;N 一 1 天 后 ， 每 对 选手 间 均 
已 进行 了 比赛 。 给 出 一 个 递归 算法 安排 比赛 。 
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图 10-76 ” 装 贺 问题 实例 


10.49 *a. 证 明 在 一 轮 罗 宾 邀 请 赛 中 总 能 够 以 顺序 pi , p. ions pi, 安排 运动 员 使 得 对 所 
有 1<j<N, p, RI p, ,的 比赛 。 ; 
b. 给 出 一 个 O(N log N) 算 法 来 找 出 这 样 的 安排 。 你 的 算法 可 以 作为 上 一 问 (a) 
的 证 明 。 
«10.50 给 定 平面 上 N 个 点 的 集合 P= pi, pr. pro 一 个 Voronoi 图 是 将 平面 分 成 N 
个 区 域 Ri; 的 一 个 划分 ,使 得 R; 中 所 有 的 点 都 比 P 中 任何 其 他 的 点 都 更 接近 p;。 
图 10-77 显示 七 个 (细心 安排 的 ) 点 的 Voronoi 图 。 给 出 一 个 O(N log N) 算 法 构造 


Voronoi 图 。 





us 





图 10.77 Voronoi f 


210.51. & $ 2# (convex polygon) 是 具有 如 下 性 质 的 多 边 形 : 端点 位 于 多 边 形 上 的 任意 线 
段 全 部 落 在 该 多 边 形 中 。 凸 包 (convex hull) 问 题 是 找 出 一 个 将 平面 上 的 点 集 围 住 的 
(面积 ) 最 小 的 凸 多 边 形 。 图 10-78 显示 40 个 点 的 点 集 的 凸 包 。 给 出 找 出 凸 包 的 一 


个 O(N log N) 算 法 。 


图 10-78 一 个 凸 包 的 例子 
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考虑 正确 调整 一 个 段落 的 问题 。 段落 由 一 系列 长 度 分 别 为 aar an 的 单词 

wi. wo. ct. w 组 成 , 我 们 希望 把 它 破 成 长 度 为 工 的 一 些 行 。 单 词 间 由 空白 分 

隔 , 空白 的 理想 长 度 是 5( 毫 米 ), 但 是 空白 在 必要 的 时 候 可 以 伸 长 或 收缩 (不 过 必 

须 大 于 0), 使 得 一 行 ww; w 的 长 度 恰好 是 L。 然而 , 对 于 每 一 处 空白 "我们 

要 装填 jb — b | LA (ugliness point). Rit, 最 后 一 行 是 例外 , 我 们 只 在 4 <b 

的 时 候 装 填 ( 换 句 话说 , 装填 只 在 收缩 的 时 候 进行 ), 因为 最 后 一 行 不 需要 调整 。 这 

FÉ, 如 果 b; 是 在 a; 和 ai+1 之 间 的 空白 的 长 度 , 那么 任何 一 行 (最 后 一 行 除外 ) 

wee, GP DHARAKA Db 1= G- DI 761 其 中 "是 

该 行 上 空白 的 平均 大 小 。 这 只 在 b^ <b 时 对 最 后 一 行 适用 , 否则 , 最 后 一 行 根本 不 

a. 给 出 一 个 动态 规划 算法 来 找 出 将 wy, w cns wr 排 成 长 度 为 L 的 一 些 行 的 最 
小 的 丑 点 设置 。 提示: 对 于 INS N-11, 0, 1, 计算 wi, wrest, wy 的 最 
好 的 排版 方式 。 

b. 给 出 你 的 算法 的 时 间 和 空间 复杂 度 ( 作 为 单词 个 数 N 的 函数 )。 

c. 考虑 我 们 使 用 行 式 打 印 机 而 不 是 激光 打印 机 的 特殊 情况 , 假设 b 的 最 优 值 为 1 
(空格 )。 在 这 种 情况 下 , 不 允许 空白 收缩 , 因为 下 一 个 最 小 的 空白 空间 是 0。 给 
出 一 个 线性 时 间 算 法 在 一 台 行 式 打印 机 上 生成 最 小 的 丑 点 设置 。 

最 长 递增 子 序列 (longest increasing subsequence) 问 题 如 下 : 给 定数 al, a2,…, ays 

REY a; «a; X Xa, Li Ci X i WRK A 值 。 作 为 一 个 例子 , 如果 

输入 为 3, 1.4, 1, 5,9, 2, 6, 5, 那么 最 大 递增 子 列 的 长 度 为 4( 该 子 列 为 1，4， 

5, 9)。 给 出 一 个 O(N?) 算 法 求解 最 大 递增 子 序 列 问题 。 

最 长 公共 子 序列 (longest common subsequence) 问 题 如 下 : 给 定 两 个 序列 A = a, 

az, 7, ay 和 B=b1, b2, …， by, 找 出 A 和 B 二 者 共有 的 最 长 子 列 C= ci c2 

oy ck BEBE RS 例如 , 若 

A=d,y,n,a,m,i,c 
和 
B=p, r, 0, g, T, a, m, m, i, Nn, gy 

则 最 长 公共 子 列 为 a, m, 其 长 度 为 2。 给 出 一 个 算法 求解 最 长 公共 子 列 问题 。 你 的 

算法 应 该 以 O(JMN ) 时 间 运 行 。 

字 型 匹配 问题 (pattern matching problem) 如 下 : 给 定 一 个 文本 串 S 和 一 种 字 型 P， 

R PES 中 的 首次 出 现 。 近似 字 型 匹配 (approximate pattern matching) 允 许 三 种 

类 型 

1. 一 个 字符 在 S 中 但 不 在 P 中 。 

2. 一 个 字符 在 P 中 但 不 在 S 中 。 

3. PAS 可 以 在 一 个 位 置 上 不 同 。 

的 下 次 误 匹配 。 例 如 , 车 我 们 在 串 “data structures txtborpk” 中 搜索 “textbook” t 

许 最 多 三 次 误 匹配 , 在 我 们 找到 一 个 匹配 (插入 一 个 e, 将 一 个 + 改变 成 o， 删除 一 个 

P). 给 出 一 个 O( MN) 算 法 求解 近似 串 匹配 问题 , 其 中 M= [PIAR N=1S]。 

背包 问题 (knapsack problem) 的 一 种 形式 如 下 : 给 定 整数 集合 A=al, a2, ay 
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+ 10.58 


* 10.59 


和 一 个 整数 K。 存在 A 的 一 个 其 和 恰好 为 K 子 集 吗 ? 
a. 给 出 一 个 算法 以 时 间 O(NK ) 求 解 背包 问题 。 
b. 为 什么 它 不 证 明 P= NP? 
给 你 一 个 货币 系统 , 它 的 硬币 值 cu，c，…，cx 分 以 递减 顺序 排列 。 
a. 给 出 一 个 算法 计算 找 K 分 零钱 所 需 最 小 的 硬币 数 。 
b. 给 出 一 个 算法 计算 找 K 分 零钱 的 不 同 的 方法 数 。 
考虑 将 8 个 皇后 放 到 一 张 (8 行 8 列 的 ) 棋 盘 上 的 问题 。 两 后 被 说 成 是 互相 对 攻 的 如 
果 她 们 处 在 同一 行 , 或 同一 列 , 或 同一 条 (不 必 是 主 ) 对 角 线 上 。 
a. 给 出 一 个 随机 化 算法 把 8 个 非 攻击 皇后 放 到 棋盘 上 。 
b. 给 出 一 个 回 湖 算法 解决 同一 个 问题 。 
c. 实现 这 两 个 算法 并 比较 它们 的 运行 时 间 。 
在 国际 象棋 中 , 在 RTC 列 上 的 国王 可 以 走 到 1<R’<B 行 和 1<C'<B 列 (其 
中 B 是 棋盘 的 大 小 ) 处 , 假设 要 么 
IR-R'|=2 R |C-C'|=1 
BA 
IR-R'I=1 及 1C-C1=2 
马 的 一 次 环 游 是 马 在 棋盘 上 的 一 系列 跳 行 , 它 恰好 访问 所 有 的 方 格 一 次 最 后 又 回 
到 开始 的 位 置 。 
a. 如 果 B 是 奇数 ,证 明 马 的 环 游 不 存在 。 
b. 给 出 一 个 回溯 算法 找 出 马 的 一 次 环 游 。 





Distance 
Shortest( S, T, G) 


Distance dr, Tmp; 

if( San T) 
return 0; 

dr = =; 

for each Vertex V adjacent to 5 
Tmp = Shortest V, T, €): 
if( esv + Tmp < Dr) 

dr = csv + Tmp; 


4 
return dr 











图 10-79 递归 的 最 短路 径 算法 


考虑 图 10-79 中 的 递归 算法 ， 该 算法 在 一 个 无 圈 图 中 寻找 从 S39) T 的 最 短 赋 权 路 
径 。 I 

a. 这 个 算法 对 于 一 般 的 图 为 什么 行 不 通 ? 

b. 证 明 该 算法 对 无 圈 图 能 够 终止 。 

c. 该 算法 的 最 坏 情形 运行 时 间 是 多 少 ? 


i] 
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动态 规划 的 经 典 文献 是 著作 [5] 和 [6]。 矩阵 排序 问题 最 初 在 [19] 中 研究 。 论 文 [21] 证 明 
该 问题 可 以 以 O(N log N) 时 间 求 解 。 

Knuth[27] 提 供 一 个 O(N2) 算 法 构建 最 优 二 叉 查找 树 。 所 有 点 对 的 最 短路 径 算法 出 自 
Floyd[16]。 理论 上 更 好 的 OCN? (og log N /og N)!3) 算 法 由 Fredman[18] 给 出 ， 不 过 它 并 不 
实用 , 这 倒 没 有 什么 奇怪 。 稍 微 改进 的 界 (指数 为 1/2 而 不 是 1/3) 由 [54] 给 出 ,相关 的 结果 也 
见于 [3].。 在 某 些 条 件 下 , 动态 规划 的 运行 时 间 可 以 自动 地 改进 N 的 一 个 因子 或 更 多 , 这 在 
练习 10.33、 论文 [15] 和 [58] 中 都 有 讨论 。 

随机 数 发 生 器 的 讨论 基于 [44]。Park 和 Miller 轻便 的 实现 方法 归 因 于 Schrage( 51). BEEK 
表 由 Pugh 在 [46] 中 讨论 。 另 一 种 类 似 的 结构 即 treap 树 在 第 12 章 讨论 。 随 机 化 素性 测试 算 
法 属于 Miller[38] 和 Rabin[48]。A 的 最 多 (N -9)/4 个 值 将 会 使 算法 失误 的 定理 源 于 Monier 
[39]。 另外 一 些 随机 化 算法 在 [47] 中 讨论 。 随 机 化 技巧 的 更 多 的 例子 可 在 [21]、[25] 和 [40] 
中 找到 。 

关于 a-B 裁 减 更 多 的 信息 可 以 查阅 [1] 、[28] 和 [29]。 一 些 下 国际 象棋 、 西 洋 跳棋 、 奥 赛 
罗 棋 以 及 十 五 子 棋 的 顶尖 级 的 程序 均 已 达到 世界 等 级 的 状态 。[35] 描 述 一 个 奥赛 罗 棋 的 程 
Ho 这 篇 论文 出 自 计算 机 游戏 (大 部 分 是 下 棋 ) 专 刊 ;这 个 专刊 是 思想 的 金 矿 。 其 中 有 一 篇 论 
文 描述 当 棋盘 上 只 有 少数 棋子 的 时 候 使 用 动态 规划 彻底 解决 残局 的 下 法 。 相 关 的 研究 已 经 导 
致 在 某 些 情况 下 50 步 规则 的 改变 。 

练习 10.41 在 [8] 中 解决 。 确定 没有 重复 距离 的 同 度 (homometric) 点 集 对 于 N>6 是 否 存 
在 是 一 个 尚未 解决 的 问题 。Christofides[ 12] 给 出 了 练习 10.47 的 一 种 解法 ， 此 外 还 给 出 一 


BUS 3 信 的 最 优 时 间 生 成 一 个 游程 的 算法 。 练习 10.52 在 [30] 中 讨论 。 练习 10.55 在 [56] 
中 解决 。 . 在 [32] 中 给 出 一 一 个 O(kN) 算 法 。 练习 10.57 在 [11] 中 讨论 , 但 不 要 被 论文 的 标题 所 
误导 。 
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第 11 章 RMD tt 


在 这 一 章 , 我 们 将 对 在 第 4 章 和 第 6 章 出 现 的 几 种 高 级 数据 结构 的 运行 时 间 进行 分 析 , 特 
别 是 我 们 将 考虑 任意 顺序 的 M 次 操作 的 最 坏 情 形 运行 时 间 。 这 与 更 一 般 的 分 析 有 所 不 同 ， 
后 者 是 对 单 次 的 操作 给 出 最 坏 情形 的 时 间 界 。 

例如 ,我 们 已 经 看 到 AVL 树 以 每 次 操作 O (logN) 最 坏 情形 时 间 支 持 标准 的 树 操作 。 
AVL 树 在 实现 上 多 少 有 些 复杂 ,这 不 仅 是 因为 存在 许多 的 情况 ,而 且 还 因为 高 度 平衡 信息 必 
须 保存 和 正确 地 更 新 。 使 用 AVL 树 的 原因 在 于 ,对 非 平衡 查找 树 的 一 系列 O(N ) 操 作 可 能 需 
要 9(N2) 时 间 , 这 样 一 来 花费 就 昂贵 了 。 对 于 查找 树 来 说 ,一 次 操作 的 O(NN) 最 坏 情形 运行 
时 间 并 不 是 真正 的 问题 ,主要 的 问题 是 这 种 情形 可 能 反复 发 生 。 伸 展 树 (splay tree) 提 供 一 种 
可 喜 的 方法 ,虽然 任意 操作 仍然 需要 6@6(N) 时 间 , 但 是 这 种 退化 行为 不 可 能 反复 发 生 , 而 且 我 
们 可 以 证 明 , 任 意 顺序 的 M 次 操作 (总 共 ) 花 费 O(MlogN) 最 坏 情形 时 间 。 因 此 ,在 长 时 期 运 
行 中 这 种 数据 结构 的 行为 就 像 是 每 次 操作 花费 O(logN) 时 间 一 样 。 我 们 把 它 称 为 掉 还 时 间 
X (amortized time bound). 

HOER IRRE 88 , AA ERE RE AUR ERE DEAS TR H FRSA 
般 来 说 并 不 重要 ,因此 如 果 能 够 对 一 系列 操作 保持 相同 的 界 同时 又 简化 数据 结构 ,那么 我 们 愿 
意 牺牲 单 次 操作 的 界 。 摊 还 界 比 等 值 的 平均 情形 界 要 强 。 例 如 ,二 叉 查 找 树 每 次 操作 的 平均 
时 间 为 O(logN) ,但 是 对 于 连续 M 次 操作 仍然 可 能 花费 O( MN ) 时 间 。 

因为 得 到 挫 还 界 需 要 我 们 查看 整个 操作 序列 而 不 是 仅仅 一 次 操作 ,所 以 我 们 希望 我 们 的 
分 析 更 具 技巧 性 。 我 们 将 看 到 这 种 期 望 一 般 会 实现 。 

本 章 我 们 将 

e 分 析 二 项 队列 操作 。 

+ 分 析 斜 堆 。 

© 介绍 并 分 析 斐 波 那 契 堆 。 

。 分析 伸展 树 。 


11.1 一 个 无 关 的 智力 问题 


考虑 下 列 问题 :将 两 个 小 猫 放 在 足球 场 的 对 面 ,相距 100 码 。 它 们 以 每 分 钟 10 码 的 速度 
相向 行走 。 同 时 ,这 两 个 小 猫 的 母亲 在 足球 场 的 一 端 , 它 可 以 以 每 分 钟 100 码 的 速度 跑步 。 猎 
妈妈 从 一 个 小 猫 跑 到 另 一 只 小 猫 ,来 回 轮流 跑 而 速度 不 减 ,一 直 跑 到 两 个 小 猫 (以 及 它们 的 儿 
妈妈 ) 在 中 场 相遇 。 问 猫 妈 妈 跑 了 多 远 ? 

使 用 蛮 力 计算 不 难 解决 这 个 问题 。 我 们 把 细节 留 给 读者 ,不 过 ,预计 这 个 计算 将 涉及 到 计 
算 无 穷 几 何 级 数 的 和 。 虽 然 这 种 直接 计算 能 够 得 到 答案 ,但 是 实际 上 通过 引入 一 个 附加 变量 ， 
即时 间 ,可 以 得 到 简单 得 多 的 解法 。 

因为 两 个 小 猫 相距 100 码 远 而 且 以 每 分 钟 20 码 的 合 速度 互相 接近 ,所 以 它们 花 5 分 钟 即 
可 到 达 中 场 。 由 于 猫 妈妈 每 分 钟 跑 100 码 , 因 此 她 跑 的 总 距离 是 500 码 。 

这 个 问题 阐述 了 一 个 思路 , 即 有 时 候 间 接 求解 一 个 问题 要 比 直接 求解 容易 。 我 们 将 这 个 
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思路 用 于 将 要 进行 的 排 还 分 析 。 我 们 将 引入 一 个 附加 变量 ,叫做 位 势 (potential), 有 了 它 ,我 们 
能 够 证 明 以 前 很 难 证 明 的 一 些 结果 - 


11.2 二 项 队列 


我 们 将 要 考查 的 第 一 个 数据 结构 是 第 6 章 中 的 二 项 队列 ,现在 进行 简要 的 复习 。 我 们 知 
道 ,二 项 树 Bo 是 一 棵 单 节点 树 , 且 对 于 >0, 二 项 树 B 通过 将 两 棵 二 项 树 B, -! 合 并 到 一 起 
而 得 到 。 二 项 树 Bo 到 By 如 图 11-1 所 示 。 


A Te e 


图 11-1 二 项 树 By, By, By, By 和 By 


一 棵 二 项 树 的 节点 的 秩 (rank) 等 于 它 的 儿子 节点 的 。 A 
个 数 ,特别 地 ,及 的 根 节点 的 秩 为 &。 二 项 队列 是 堆 序 的 ® 
二 项 树 的 集合 ,在 这 个 集合 中 对 于 任意 的 上 最 多 可 以 存 € 


4E— ROT Beo FE 11-2 显示 两 个 二 项 队列 H, 和 OA & 
ig Hs 


最 重要 的 操作 是 Merge( 合 并 )。 为 了 合并 两 个 二 项 
队列 ,需要 执行 类 似 于 二 进 制 整数 加 法 的 操作 :在 任 一 时 
刻 , 我 们 可 以 有 零 一 ,二 或 可 能 三 棵 B, 树 , 它 依赖 于 这 
两 个 优先 队列 是 否 包含 一 棵 Bt 树 以 及 是 否 有 一 棵 Bi 树 从 前 一 步 转 信 。 如 果 存在 零 棵 或 一 棵 
By 树 ,那么 它 作为 一 棵 树 被 放 到 合并 后 的 二 项 队列 中 ;如 果 有 两 棵 B, 树 , 那 么 它们 被 合并 成 
一 棵 及,1 树 并 且 被 并 人 到 结果 中 ;如 果 有 三 棵 B, 树 , 那 么 将 一 棵 作为 树 放 入 到 二 项 队列 中 而 
另 两 棵 则 合并 成 一 棵 且 并 入 到 结果 中 。F 和 H 合并 的 结果 如 图 11-3 所 示 。 


图 11-2 两 个 二 项 队列 H, 和 H 





图 11-3 二 项 队列 Hs: 合 并 Hi 和 H 的 结果 


插入 操作 通过 创建 一 个 单 节点 二 项 队列 并 执行 一 次 Merge 来 完成 。 做 这 项 工作 所 用 的 
时 间 为 M+1, 其 中 M 代表 不 在 该 二 项 队列 中 的 二 项 树 Bw 的 最 小 型 号 。 因此 ,向 一 个 有 一 棵 
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By 树 但 没有 B, 树 的 二 项 队列 进行 的 插入 操作 需要 两 步 。 删 除 最 小 元 通过 把 最 小 元 除去 并 
将 原 二 项 队列 分 裂 成 两 个 二 项 队列 ,然后 再 将 它们 合并 来 完成 。 第 6 章 给 出 了 对 这 些 操作 的 
比较 详细 的 解释 。 

我 们 首先 考虑 一 个 非常 简单 的 问题 。 假 设 我 们 想 要 建立 一 个 含有 N 个 元 素 的 二 项 队列 。 
我 们 知道 ,建立 一 个 含有 N 个 元 素 的 二 叉 堆 可 以 以 O(N) 时 间 完 成 ,因此 我 们 希望 对 于 二 项 
队列 也 有 一 个 类 似 的 界 。 

声明 : 

N 个 元 素 的 二 项 队列 可 以 通过 NN 次 相继 插入 而 以 时 间 O(NN) 建 成 。 

这 个 声明 如 果 成 立 , 那 么 它 就 给 出 一 个 极其 简单 的 算法 。 由 于 每 次 插入 的 最 坏 情 形 时 间 
是 O(logN), 因 此 ,这 个 声明 是 否 成 立 并 不 是 显然 的 。 考 虑 到 如 果 将 该 算法 应 用 到 二 叉 堆 , 则 
运行 时 间 将 是 O( NlogN)。 

要 想 证 明 这 个 声明 ,我 们 可 以 直接 进行 计算 。 为 了 测 出 运行 时 间 , 我 们 将 每 次 插入 的 代价 
定义 为 一 个 时 间 单 位 加 上 每 一 步 链接 的 一 个 附加 单位 。 将 所 有 插入 的 时 间 代价 求 和 就 得 到 总 
的 运行 时 间 。 这 个 总 的 时 间 为 N 个 单位 加 上 总 的 链接 步 数 。 第 一 ,第 三 、 第 五 以 及 所 有 编号 
为 奇数 的 步 不 需要 链接 ,因为 在 插入 时 Bo 不 出 现 。 因 此 ,有 一 半 的 插入 不 需要 链接 ,四 分 之 
一 的 插入 只 需要 一 次 链接 (第 二 ,第 六 ,第 十 次 插入 等 等 ), 八 分 之 一 的 插入 需要 两 次 链接 ,等 
等 。 我 们 可 以 把 所 有 这 些 加 起 来 并 确定 用 N 作为 链接 步 数 的 界 , 从 而 证 明 该 声明 。 不 过 , 当 
我 们 试图 分 析 一 系列 不 仅仅 是 插入 的 操作 的 时 候 ,这 种 蛮 力 计算 将 无 助 于 其 后 的 进一步 分 析 ， 
因此 我 们 将 使 用 另外 一 种 方法 来 证 明 这 个 结果 。 

考虑 一 次 插入 的 结果 。 如 果 在 插 和 人 时 不 出 现 Bo 树 , 那 么 使 用 与 上 面相 同 的 计数 方法 可 
知 这 次 插入 的 总 代价 是 一 个 时 间 单 位 。 现 在 ,插入 的 结果 有 了 一 棵 Bo 树 , 这 样 ,我 们 已 经 把 
一 棵 树 添加 到 二 项 树 的 森林 中 。 如 果 存在 一 棵 Bo 树 但 是 没有 Bi 树 , 那 么 插入 花费 两 个 单元 
的 时 间 。 新 的 森林 将 有 一 棵 B, 树 但 不 再 有 Bo 树 ,因此 在 森林 中 树 的 数目 并 没有 变化 。 花 费 
三 个 单元 时 间 的 一 次 插入 将 创建 一 棵 B 树 但 消除 一 棵 By B, 树 ,这 导致 在 森林 中 净 减 少 
一 棵 树 。 事 实 上 ,容易 看 到 ,一 般 说 来 花费 c 个 单元 时 间 的 一 次 插入 导致 在 森林 中 净 增加 
2- c 棵 树 ,这 是 因为 创建 了 一 棵 B._1 树 而 消除 了 所 有 的 B; 树 ,0<<i<c 一 1。 因 此 ,代价 昂贵 
的 插入 操作 删除 一 些 树 , 而 低廉 的 插入 却 创建 一 些 树 。 

4» C, 是 第 i 次 插入 的 代价 。 令 T, 为 第 ;i 次 插入 后 的 树 的 棵 数 。To = 0 为 树 的 初始 棵 
数 。 此 时 我 们 得 到 不 变 式 

C,+(7;- T;-1)=2 (11.1) 
于 是 

ci+(Ti-ToD=2 

Cr+ (T2- T1) =2 


Cy-1+ xa 7 Ts 72 
Cy + (Ix 7 Ty-1) =2 
把 这 些 方程 都 加 起 来 , 则 大 部 分 的 T, 项 被 消去 ,最 后 剩 下 


E 
= 
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或 等 价 地， 





之 C = 2N - (Ty - To) 
考虑 到 To=0 以 及 N 次 插入 后 的 树 的 棵 数 TN 确实 非 负 ,因此 ( Ty - To) 非 负 。 于 是 
SG, <2N 
这 就 证 明了 我 们 的 声明 。 

在 BuildBinomialQueue 例 程 运 行 期 间 , 每 一 次 插入 有 一 个 最 坏 情 形 运 行 时 间 O(logN) ,但 
是 由 于 整个 例 程 最 多 用 到 2N 个 单位 的 时 间 , 因 此 这 些 插入 的 行为 就 像 是 每 次 使 用 不 多 于 两 
个 单位 的 时 间 。 

这 个 例子 亲 明 了 我 们 将 要 使 用 的 一 般 技巧 。 数 据 结构 在 任 一 时 刻 的 状态 由 一 个 称 为 位 势 
(potential) 的 函数 给 出 。 这 个 位 势 函数 不 由 程序 保存 ,而 是 一 个 计数 装置 ,该 装置 将 帮助 进行 
分 析 。 当 一 些 操作 花费 少 于 我 们 允许 它们 使 用 的 时 间 时 , 则 没有 用 到 的 时 间 就 以 一 个 更 高 位 
势 的 形式 “存储 "起 来 。 在 我 们 的 例子 中 ,数据 结构 的 位 势 就 是 树 的 棵 数 。 在 上 面 的 分 析 中 , 当 
我 们 有 一 些 插入 只 用 到 一 个 单位 而 不 是 规定 的 两 个 单位 的 时 候 , 则 这 个 额外 的 单位 通过 增加 
位 势 而 被 存储 起 来 以 备 其 后 使 用 。 当 操作 出 现 超出 规定 的 时 间 时 , 则 超出 的 时 间 通 过 位 势 的 
减少 来 计算 。 可 以 把 位 势 看 作 是 一 个 储蓄 账户 。 如 果 一 次 操作 使 用 了 少 于 指定 的 时 间 ,那么 
这 个 差额 就 被 存储 起 来 以 备 后 面 更 昂贵 的 操作 使 用 。 图 11-4 显示 由 BuildBinomialQueue 对 一 
系列 插入 操作 所 使 用 的 累积 的 运行 时 间 。 可 以 看 到 ,运行 时 间 从 不 超过 2N ,而 且 在 任 一 次 揪 
人 后 二 项 队列 中 的 位 势 计 量 着 存储 量 。 


"s 
2N, 
n Total” Time 
69 
46 


23, 
Total Potential 
0 4 8 12 16 20 24 28 32 36 40 44 
图 11-4 连续 N 次 插入 
一 旦 位 势 函数 被 选 定 ,我 们 就 可 写 出 主要 的 方程 
Teena + APotential = T uin (11.2) 
T 是 一 次 操作 的 实际 时 间 , 代 表 需 要 执行 一 次 特定 操作 需要 的 精确 (遵守 的 ) 时 间 量 。 例 
如 在 二 又 查找 树 中 ,执行 一 次 Find X ) 的 实际 时 间 是 加 上 包含 X 的 节点 的 深度 。 如 果 我 们 
对 整个 序列 把 基本 方程 加 起 来 ,并 且 最 后 的 位 势 至 少 像 初 始 位 势 一 样 大 ,那么 排 还 时 间 就 是 在 
操作 序列 执行 期 间 所 用 到 的 实际 时 间 的 一 个 上 界 。 注意 , 当 Tw 在 从 一 个 操作 到 另 一 操作 
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变化 时 , Tenonixd 却 是 稳定 的 。 
选择 一 个 位 势 函 数 以 确保 一 个 有 意义 的 界 是 一 项 艰难 的 工作 ,不 存在 一 种 实用 的 方法 . 
一 般 来 说 ,在 尝试 过 许多 位 势 函数 以 后 才能 够 找到 一 个 合适 的 函数 。 不 过 ,上 面 的 讨论 所 出 一 
些 法 则 ,这 些 法 则 告诉 我 们 好 的 位 势 函数 所 具有 的 一 些 性 质 。 位 势 函数 应 该 
* 总 假设 它 的 最 小 元 位 于 操作 序列 的 开始 处 。 选 择 位 势 函 数 的 一 种 常用 方法 是 保证 位 
势 函数 初始 值 为 0, 而 且 总 是 非 负 的 。 我 们 将 要 遇 到 的 所 有 例子 都 使 用 这 种 方法 。 
。 消 去 实际 时 间 中 的 一 项 。 在 我 们 的 例子 中 ,如 果实 际 的 花费 是 c ,那么 位 势 改变 为 
2- c。 当 把 这 些 加 起 来 就 得 到 挫 还 花费 是 2, 这 在 图 11-5 中 表 出 。 


Insert cost 


Potential Change 





0 4 8 12 16 20 24 28 32 36 40 44 48 
图 11-5 在 一 系列 操作 中 插入 的 花费 和 每 一 次 操作 的 位 势 变化 


现在 我 们 可 以 对 二 项 队列 操作 进行 完整 的 分 析 。 m 
定理 11.1 

Insert .DeleteMin 以 及 Merge 对 于 二 项 队列 的 摊 还 运行 时 间 分 别 是 

O(1) O(logN) Al O(logN ) 0 

证 明 : 

位 势 函 数 是 树 的 棵 数 。 初 始 的 位 势 函 数 为 0, 且 位 势 总 是 非 负 的 ,因此 摊 还 时 间 是 实际 时 
间 的 一 个 上 界 。 对 Insert 的 分 析 从 上 面 的 论证 可 以 得 到 。 对 于 Merge, 假 设 两 棵 树 分 别 
有 Ni 和 Na 个 节点 以 及 对 应 的 Ti 和 Ta 棵 树 。 令 N= Ni + Na。 执 行 合并 的 实际 时 间 
为 O(log(N1) * log(N2)) = O(logN)。 在 合并 之 后 ,最 多 可 能 存在 log 棵 树 , 因 此 位 势 
最 多 可 以 增加 O(logN)。 这 就 给 出 一 个 挫 还 的 界 O(logN)。DeleteMin 的 界 可 用 类 似 的 
方法 得 到 。 


11.3 $08 


二 项 队列 的 分 析 可 以 算是 一 个 容易 的 排 还 分 析 实 例 。 现 在 我 们 来 考察 斜 堆 。 像 许多 的 例子 
一 样 ,一 旦 找到 正确 的 位 势 函数 ,分 析 起 来 就 容易 了 。 困 难 的 问题 是 选择 一 个 合适 的 位 势 函 数 。 

对 于 斜 堆 ,我 们 知道 关键 的 操作 是 合并 。 为 了 合并 两 个 斜 堆 ,我 们 把 它们 的 右 路 径 合并 并 
使 之 成 为 新 的 左 路 径 。 对 于 新 路 径 上 的 每 一 个 节点 ,除去 最 后 一 个 外 , 老 的 左 子 树 作为 右 子 树 
而 附 于 其 上 。 在 新 的 左 路 径 上 的 最 后 节点 已 知 没有 右 子 树 , 因 此 给 它 一 棵 右 子 树 就 不 明智 了 。 
我 们 所 要 考虑 的 界 不 依赖 于 这 个 例外 ,如 果 例 程 是 递归 地 编写 的 ,那么 这 又 是 自然 要 发 生 的 情 
RL. 图 11-6 显示 合并 两 个 斜 堆 后 的 结果 。 
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图 11-6 合并 两 个 斜 堆 


设 我 们 有 两 个 斜 堆 H, 和 H: 并 在 各 自 的 右 路 径 上 分 别 有 r 和 ns 个 节点 。 此 时 ,执行 合 
并 的 实际 时 间 与 r+ ry 成 正比 ,因此 我 们 将 省 去 大 O 记号 而 对 右 路 径 上 的 每 一 个 节点 取 一 
个 单位 的 时 间 。 由 于 这 些 堆 没有 固定 的 结构 模式 ,因此 两 个 堆 的 所 有 节点 都 位 于 右 路 径 上 的 
情况 是 可 能 发 生 的 ,而 这 将 给 出 合并 两 个 堆 的 最 坏 情形 的 界 6(N)( 练 习 11.3 BOR I~ 
433 例子 )。 我 们 将 证 明 合并 两 个 斜 堆 的 排 还 时 间 为 O(logN)。 
我 们 需要 的 是 能 够 获得 斜 堆 操作 效果 的 某 种 类 型 的 位 势 函 数 。 我 们 知道 ,一 次 合并 的 效 
果 是 处 在 右 路 径 上 的 每 一 个 节点 都 被 移 到 左 路 径 上 ,而 其 原 左 儿 子 变 成 新 的 右 儿子 。 一 种 想 
法 是 把 每 一 个 节点 算 和 为 右 节点 或 左 节点 来 分 类 ,这 要 看 节点 是 右 儿 子 还 是 不 是 右 儿子 来 定 ， 
这 时 我 们 把 右 节 点 的 个 数 作为 位 势 函 数 。 虽 然 位 势 初始 时 为 0 并 且 总 是 非 负 的 ,但 是 问题 在 
于 这 种 位 势 在 一 次 合并 后 并 不 减少 从 而 不 能 恰当 地 反映 在 数据 结构 中 的 储备 量 。 这 样 的 结果 
使 该 位 势 函 数 不 能 够 用 来 证 明 所 要 求 的 界 。 
一 个 类 似 的 想法 是 把 节点 分 成 重 节点 或 轻 节点 ,这 要 看 任 一 节点 的 右 子 树 上 的 节点 是 否 
比 左 子 树 上 的 节点 多 来 确定 。 
定义 :一 个 节点 p 如 果 其 右 子 树 的 后 毅 数 至 少 是 该 p 的 后 背 总 数 的 一 半 , 则 称 节点 p 是 
重 的 ,否则 称 之 为 轻 的 。 注 意 ,一 个 节点 的 后 毅 个 数 包括 该 节点 本 身 。 
例如 ,图 11.7 表示 一 个 斜 堆 。 关 键 字 为 15、3.6、12 和 7 的 节点 是 重 节点 ,而 所 有 其 他 的 


节点 都 是 轻 节点 。 





| 图 11-7 斜 堆 一 其 中 的 重 节点 是 3.6、7、12 和 15 


我 们 将 要 使 用 的 位 势 函数 是 这 些 堆 (的 集合 ) 中 的 重 节点 的 个 数 。 看 起 来 这 可 能 是 一 种 好 
的 选择 ,因为 一 条 长 的 右 路 径 将 包含 非常 多 的 重 节点 。 由 于 这 条 路 径 上 的 节点 将 要 交换 它们 
的 子 节点 ,因此 这 些 节点 将 被 转变 成 合并 结果 中 的 轻 节点 。 
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EB 11.2 
合并 两 个 斜 堆 的 排 还 时 间 为 O(logN) 
证 明 : 


4 H 和 Hy 为 两 个 堆 , 分 别 具 有 Ni 和 Na 个 节点 。 设 Hi 的 右 路 径 有 I, 个 轻 节点 


Ah 个 重 节点 ,共有 Lth 个 节点 。 同 样 , H 在 其 右 路 径 上 有 12 个 轻 节点 和 h 个 重 (434) 


EH ly thy 个 节点 。 

如 果 我 们 采用 约定 :合并 两 个 斜 堆 的 花费 是 它们 右 路 径 上 节点 的 总 数 ,那么 执行 合并 
的 实际 时 间 就 是 Ly + /2 + hi + fa。 现在 ,其 重 / 轻 状态 能 够 改变 的 节点 只 是 那些 最 初 位 
于 右 路 径 上 (并 最 后 出 现在 左 路 径 上 ) 的 节点 ,因为 再 没有 别 的 节点 的 子 树 被 交换 。 这 可 
见于 图 11-8 中 的 例子 。 








图 11-8 合并 后 重 / 轻 状态 的 变化 


如 果 一 个 重 节点 最 初 是 在 右 路 径 上 ,那么 在 合并 后 它 必然 成 为 一 个 轻 节点 。 位 于 右 
路 径 上 的 其 余 那些 节点 是 轻 节点 ,它们 可 能 变 成 也 可 能 不 变 成 重 节点 ,但 是 由 于 我 们 要 证 
明 一 个 上 界 , 因 此 我 们 必须 假设 最 坏 的 情况 , 即 它们 都 变 成 了 重 节点 并 使 得 位 势 增 加 。 此 
时 , 重 节点 个 数 的 净 变 化 最 多 为 0 + 1， - hi- h2。 把 实际 时 间 和 位 势 的 变化 (方程 
(11.2)) 加 起 来 则 得 到 一 个 摊 还 界 2(1, + /2)。 

现在 我 们 必须 证 明 L1+ 17 O(logN)。 由 于 Li 和 /: 是 原 右 路 径 上 轻 节点 的 个 数 ， 
而 一 个 轻 节点 的 右 子 树 小 于 以 该 轻 节点 为 根 的 树 的 大 小 的 一 半 , 由 此 直接 推出 右 路 径 上 
轻 节点 的 个 数 最 多 为 logN1 + logN;, 这 就 是 O(logN)。 

注意 到 初始 的 位 势 为 0 而 且 位 势 总 是 非 负 的 ,我 们 的 证 明 也 就 完成 了 。 验 证 这 一 点 
很 重要 ,因为 否则 捧 还 时 间 就 不 能 成 为 实际 时 间 的 界 而 且 也 就 没有 意义 了 。 

由 于 Insert 和 DeleteMin 操作 基本 上 就 是 一 些 Merge, 它 们 的 排 还 界 也 是 O(logN)。 


11.4 斐 波 那 契 堆 


在 9.3.2 节 我 们 指出 如 何 使 用 优先 队列 改进 Dijkstra 最 短路 径 算法 的 粗略 运行 时 间 
O(| V1?)。 重要 的 现象 是 运行 时 间 被 |E | 次 DecreaseKey 操作 和 | V | 次 Insert 和 DeleteMin 
操作 所 控制 。 这 些 操 作 发 生 在 大 小 最 多 为 |V | 的 集合 上 。 通过 使 用 二 叉 堆 ,所 有 这 些 操作 花 
费 O(log! V 1) 时间, 因此 Dijkstra 算法 最 后 的 界 可 以 减 到 OC Ellogl V|)。 

为 了 降低 这 个 时 间 界 ,必须 改进 执行 DecreaseKey 操作 所 需要 的 时 间 。 我 们 在 6.5 节 所 
描述 的 d- 堆 给 出 对 于 DecreaseKey 操作 以 及 Insert 的 O(logy| V1 ) 时 间 界 ,但 对 DeleteMin 的 
FHE O(dlogs1 V1)。 通 过 选择 d 来 平衡 带 有 | V1 次 DeleteMin 操作 的 | 下 | 次 DecreaseKey 
操作 的 花费 ,并 考虑 到 d 必须 总 是 至 少 为 2, 那 么 我 们 看 到 d 的 一 个 好 的 选择 是 
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d= max QA EMI VU) 
EXE Dijkstra 算法 的 时 间 界 改进 到 

OE [loge +tiziavin! V) 

斐 波 那 契 堆 是 以 O(1) 捧 还 时 间 支 持 所 有 基本 的 堆 操作 的 一 种 数据 结构 ,但 DeleteMin 和 
Delete 除外 ,它们 花费 O(logN ) 的 摊 还 时 间 。 我 们 立即 得 出 ,在 Dijkstra 算法 中 的 那些 堆 操作 
将 总 共 需 要 OUEL +! Vlog! V1) 的 时 间 。 

SE LAB HE (Fibonacci heap)S 通 过 添加 两 个 新 的 观念 推广 了 二 又 堆 : 

DecreaseKey 的 一 种 不 同 的 实现 方法 :我 们 以 前 看 到 的 那 种 方法 是 把 元 素 朝向 根 节 点 上 

滤 。 对 于 这 种 方法 似乎 没有 理由 期 望 O(1) 的 挫 还 时 间 界 ,因此 需要 一 种 新 的 方法 。 

WS IF (lazy merging): 只 有 当 两 个 堆 需要 合并 时 才 进 行 合 并 。 这 类 似 于 懒惰 删除 。 对 

于 懒惰 合并 , Merge 是 低廉 的 ,但 是 因为 懒惰 合并 并 不 实际 把 树 结合 在 一 起 , 所 以 

DeleteMin 操作 可 能 会 遇 到 许多 的 树 ,从 而 使 这 种 操作 的 代价 高 晶 。 任 何 一 次 DeleteMin 

都 可 能 花费 线性 时 间 , 但 是 总 能 够 把 时 间 归 短 到 前 面 的 一 些 Merge 操作 中 去 。 特 别 地 ， 

一 次 昂贵 的 DeleteMin 必须 在 其 前 面 要 有 大 量 的 非常 低廉 的 Merge 操作 ,它们 能 够 储存 

额外 的 位 势 。 

11.4.1 切除 左 式 堆 中 的 节点 

在 二 又 堆 中 ,DecreaseKey 操作 是 通过 降低 节点 的 值 然后 将 其 朝 着 根 上 滤 直 到 建成 堆 序 来 
实现 的 。 在 最 坏 的 情形 下 , 它 花费 O(logN) 时 间 , 这 是 平衡 树 中 通 向 根 的 最 长 路 径 的 长。 

如 果 代表 优先 队列 的 树 不 具有 O(logN ) 的 深度 ,那么 这 种 方法 不 适用 。 例 如 , 若 将 这 种 
方法 用 于 左 式 堆 , 则 DecreaseKey 操作 可 能 花费 B(N) 时 间 , 如 图 11-9 中 的 例子 所 示 。 





图 11-9 通过 上 滤 将 N 一 1 递减 到 0 花费 B(N) 时 间 


我 们 看 到 ,对 于 左 式 堆 来 说 DecreaseKey 操作 需要 另外 的 方法 。 我 们 的 例子 见 图 11-10 中 
的 左 式 堆 。 假 设 我 们 想 要 将 值 为 9 的 关键 字 减 低 到 0。 若 对 该 堆 变动 , 则 必 将 引起 堆 序 的 破 
坏 ,这 种 破坏 在 图 11-11 中 用 虚线 标示 。 

我 们 不 想 把 0 上 滤 到 根 ,因为 正如 我 们 已 经 看 到 的 ,存在 一 些 情况 使 得 这 样 做 代价 太 大 。 
解决 的 办 法 是 把 堆 沿 着 虚线 切 开 ,如 此 得 到 两 棵 树 ,然后 再 把 这 两 棵 树 合并 成 一 棵 。 令 X 为 
要 执行 DecreaseKey 操作 的 节点 , 令 P 为 它 的 父 节点 。 在 切断 以 后 我 们 得 到 两 棵 树 , 即 根 为 X 


局 ”这 个 名 字 来 自 于 这 种 数据 结构 的 一 个 性 质 ,后 面 我 们 要 在 本 节 证 明 它 = 
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的 H, M Ta, T» 是 原来 的 树 除去 Hi 后 得 到 的 树 。 具 体 情况 如 图 11-12 所 示 。 





图 11-12 切断 之 后 得 到 的 两 棵 树 


如 果 这 两 棵 树 都 是 左 式 堆 , 那 么 它们 可 以 以 时 间 O(logN) 合 并 ,整个 操作 也 就 完成 了 。 
容易 看 出 ,Hi 是 左 式 堆 , 因 为 没有 节点 的 后 裔 发 生变 化 。 由 于 它 的 所 有 节点 原本 就 满足 左 式 
堆 的 性 质 , 因 此 现在 仍 将 必然 满足 。 

然而 ,这 种 方案 似乎 还 是 行 不 通 ,因为 T 未 必 是 左 式 堆 。 不 过 ,容易 恢复 左 式 堆 的 性 质 ， 
这 要 用 到 下 列 两 个 观察 到 的 结论 : 

。 只 有 从 P F Ta 的 根 的 路 径 上 的 节点 可 能 破坏 左 式 堆 的 性 质 ;它们 可 以 通过 交换 子 节 

点 来 调整 。 
。 由 于 最 大 右 路 径 长 最 多 有 Llog(N + 1)J 个 节点 ,因此 我 们 只 需 检查 从 已 到 T» 的 根 的 路 
径 上 的 前 Liog(N+1)J 个 节点 。 图 11-13 显示 了 Hi 和 将 Tr 转变 成 左 式 堆 后 的 H2。 

因为 我 们 能 够 以 O(logN) 步 将 T 转变 成 左 式 堆 了 ， 然 后 合并 H 和 He, 所 以 我 们 

得 到 一 个 在 左 式 堆 中 执行 DecreaseKey 的 O (logN) 算法 。 图 11-14 显示 的 堆 是 该 例 的 最 后 


结果 。 
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图 11-14 通过 合并 H, 和 H; 而 完成 操作 DecreaseKey( H, X ,9) 


1.4.2 二 项 队列 的 懒 情 合并 

由 斐 波 那 契 堆 所 使 用 的 第 二 个 想法 是 疝 情 合并 (lazy merging)。 我 们 将 把 这 个 想法 用 于 
二 项 队列 并 证 明 执行 一 次 Merge 操作 (还 有 插入 操作 , 它 是 一 种 特殊 情形 ) 的 摊 还 时 间 为 
0O(1)。 对 于 DeleteMin, 其 摊 还 时 间 仍然 是 O(logN)。 

这 个 想法 如 下 :为 了 合并 两 个 二 项 队列 ,只 要 把 两 个 二 项 树 的 表 连 在 一 起 ,结果 得 到 一 个 
新 的 二 项 队列 。 这 个 新 的 二 项 队列 可 能 含有 相同 大 小 的 多 棵 树 ,因此 破坏 二 项 队列 的 性 质 。 
为 了 保持 一 致 性 ,我 们 将 把 它 叫做 濑 惰 二 项 队列 (lazy binomial queue)。 这 是 一 种 快速 操作 ,该 
操作 总 是 花费 常数 (最 坏 情形 ) 时 间 。 和 前 面 一 样 ,一 次 插入 通过 创建 一 个 单 节点 二 项 队列 并 
将 其 合并 而 完成 。 区 别 在 于 合并 是 懒惰 的 。 

DeleteMin 操作 要 麻烦 得 多 ， 因为 此 处 需要 我 们 最 终 把 懒惰 二 项 队列 转变 回 到 标准 的 二 项 
队列 , 不 过 , 正如 我 们 将 要 证 明 的 , 它 仍然 花费 O(logN ) 的 排 还 时 间 一 一 而 不 像 以 前 是 
O(logN) 最 坏 情 形 时 间 。 为 了 执行 DeleteMin, 我 们 找 出 (并 最 终 返 回 ) 最 小 元 素 。 如 前 所 述 ， 
我 们 将 它 从 队列 中 删除 ,使 得 它 的 每 一 个 子 节点 都 成 为 一 棵 新 的 树 。 此 时 我 们 通过 合并 两 棵 
相等 大 小 的 树 直至 不 再 可 能 合并 为 止 而 把 所 有 的 树 合并 成 一 个 二 项 队列 。 

例如 ,图 11-15 表示 一 个 懒惰 二 项 队列 。 在 一 个 懒 情 二 项 队列 中 ,可 能 有 多 于 一 棵 的 树 有 
相同 的 大 小 。 为 了 执行 DeleteMin, 我 们 照 以 前 那样 把 最 小 的 元 素 删 除 ,并 得 到 图 11-16 中 


" e? ? ss d^ dm 


图 11-15 ”懒惰 二 项 队列 
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图 11-16 在 删除 最 小 元 素 (3) 后 的 懒 情 二 项 队列 





现在 我 们 必须 将 所 有 的 树 合并 而 得 到 一 个 标准 的 二 项 队列 。 一 个 标准 的 二 项 队列 每 个 秩 
上 最 多 有 一 棵 树 。 为 了 有 效 地 进行 这 项 工作 ,我 们 必须 能 够 以 正比 于 出 现在 (T) 中 树 的 棵 数 
的 时 间 ( 或 logN, 哪 个 大 用 哪个 ) 完 成 Merge。 为 此 ,我 们 构造 表 的 一 个 数组 : Los Lis esse 
LR,+1, 其 中 Rm 是 最 大 的 树 的 秩 。 每 个 表 Le 包含 秩 为 R 的 所 有 的 树 。 然 后 应 用 图 11-17 


中 的 过 程 。 





/* le/ for( R = 0; R <= [log Nj; Re+ ) 


Ii while |Le| 2 2 do 
1 
/* 3n Remove two trees from Le: 
/* at Merge the two trees into a new tree; 
EA Add the new tree to Leis 


上 








图 11-17 恢复 二 项 队列 的 过 程 


每 通过 一 次 过 程 中 从 第 3 行 到 第 5 行 的 循环 , 树 的 总 棵 数 都 要 减少 1。 这 意味 着 ,这 部 分 
每 次 执行 都 花费 常数 时 间 的 代码 只 能 够 执行 工 - 1 次 ,其 中 T 是 树 的 棵 数 。 这 里 的 for 循环 
计数 和 while 循环 末尾 的 检测 花费 O(logN) 时 间 , 这 使 得 运行 时 间 成 为 所 要 求 的 OCT + 
logN)。 图 11-18 显示 该 算法 对 前 面 二 项 队列 的 集合 的 执行 情况 。 


图 11-18 把 一 些 二 项 树 合并 成 一 个 二 项 队列 
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懒 情 二 项 队列 的 摊 还 分 析 

为 了 进行 懒惰 二 项 队列 的 摊 还 分 析 , 我 们 将 用 到 对 标准 二 项 队列 所 使 用 的 相同 的 位 势 函 
数 。 因 此 , 懒 情 二 项 队列 的 位 势 是 树 的 棵 数 。 

定理 11.3 

Merge 和 Insert 的 摊 还 运行 时 间 对 于 懒惰 二 项 队列 均 为 O(1)。DelcteMin 的 摊 还 运 

行 时 间 为 O(logN)。 

ERA: 

这 里 的 位 势 函 数 为 二 项 队列 集合 中 树 的 棵 数 。 初 始 的 位 势 为 0. 而且 位 势 总 是 非 负 

的 。 因 此 ,经 过 一 系列 的 操作 之 后 ,总 的 摊 还 时 间 是 总 的 运行 时 间 的 一 个 上 界 。 

对 于 Merge 操作 ,实际 时 间 为 常数 ,而 二 项 队列 的 集合 中 的 树 的 棵 数 是 不 变 的 , 因 

此 ,由 方程 (11.2) 可 知 摊 还 时 间 为 O(1)。 

对 于 Insert 操作 ,其 实际 时 间 是 常数 ,而 树 的 棵 数 最 多 增加 1, 因此 排 还 时 间 为 O(1)。 
操作 DeleteMin 比较 复杂 。 令 R 为 包含 最 小 元 素 的 树 的 秩 , 而 令 了 是 树 的 棵 数 。 于 是 ， 

在 DeleteMin 操作 开始 时 的 位 势 为 了 。 为 执行 一 次 DeleteMin, 最 小 节点 的 各 子 节点 被 分 

离开 而 成 为 一 棵 一 棵 的 树 。 这 就 产生 了 T+ R 棵 树 ,这 些 树 必须 要 合并 成 一 个 标准 的 二 

项 队列 。 如 果 忽略 大 O 记号 中 的 常数 ,那么 根据 上 面 的 论述 可 知 , 执 行 该 操作 的 实际 时 

间 为 +RR+logN。9 另 一 方面 ,一 旦 做 完 这 些 , 剩 下 的 最 多 可 能 还 有 logN 棵 树 , 因 此 位 

势 函数 最 多 可 能 增加 (logN) — 工 。 把 实际 时 间 和 位 势 的 变化 加 起 来 得 到 捧 还 时 间 界 为 

2logN+ R。 由 于 所 有 的 树 都 是 二 项 树 ,因此 我 们 知道 R 生 logN。 这 样 ,我 们 得 到 

DeleteMin 操作 的 摊 还 时 间 界 O(logN)。 

11.4.38. 斐 波 那 契 堆 操作 

正如 我 们 前 面 提 到 的 , 斐 波 那 契 堆 将 左 式 堆 DecreaseKey 操作 与 懒惰 二 项 队列 Merge 操 
作 结 合 起 来 。 不 过 ,我 们 不 能 一 点 修改 也 不 做 而 使 用 这 两 种 操作 。 问题 在 于 ,如 果 在 这 些 二 项 
树 中 进行 任意 切割 ,那么 结果 得 到 的 森林 将 不 再 是 二 项 树 的 集合 。 因此 ,每 一 棵 怪 的 秩 最 多 为 
LlogN j 将 不 再 成 立 。 由 于 在 懒惰 二 项 队列 中 DeleteMin 的 扒 还 时 间 已 被 证 明 是 2logN + R.A 
此 ,对 于 DeleteMin 的 界 我 们 需要 R= O(logN) 成 立 。 

为 了 保证 R = O(logN) ,我 们 对 所 有 的 非 根 节点 应 用 下 述 法 则 : 

。 将 第 一 次 (因为 切除 而 ) 失 去 一 个 子 节点 的 ( 非 根 ) 节 点 做 上 标记 。 

。 如 果 被 标记 的 节点 又 失去 另外 一 个 儿子 节点 ,那么 将 其 从 它 的 父 节点 切除 。 这 个 节点 
现在 变 成 了 一 棵 分 离 的 树 的 根 并 且 不 再 被 标记 。 这 叫做 一 次 级 联 切 除 (cascading 
cut) ,因为 在 一 次 DecreaseKey 操作 中 可 能 出 现 多 次 这 种 切除 。 

图 11-19 显示 在 DecreaseKey 操作 之 前 斐 波 那 契 堆 中 的 一 棵 树 。 当 关 键 字 为 39 的 节点 变 
成 12 的 时 候 , 堆 序 被 破坏 。 因此 ,该 节点 从 它 的 父 节点 中 切除 , 变 成 了 一 棵 新 树 的 根 。 由 于 包 
& 33 的 节点 被 标记 ,这 是 它 的 第 二 个 失去 的 子 节点 ,从 而 它 也 被 从 它 的 父 节点 (10) 中 切除 。 
现在 ,10 也 失去 了 它 的 第 二 个 儿子 ,于 是 它 又 从 5 中 切除 。 这 个 过 程 到 这 里 结束 ,因为 5 是 未 

= 我 们 能 够 这 么 做 是 因为 我 们 可 以 把 大 O 记号 所 苑 活 的 常数 置信 在 位 势 和 数 中 并 仍 可 消去 这 些 项 ,这 在 该 证 明 中 是 
需要 的 > 
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作 标 记 的 。 现 在 把 节点 5 作 上 标记 。 结 果 如 图 1120 所 示 - 





图 11-20 在 DecreaseKey 操作 之 后 斐 波 那 契 堆 中 的 片段 


注意 ,过 去 被 作 过 标记 的 节点 10 和 33 不 再 被 标记 ,因为 现在 它们 都 是 根 节点 。 这 在 时 间 
界 的 证 明 中 是 极其 重要 的 。 
11.4.4. 时 间 界 的 证 明 
注意 ,标记 节点 的 原因 是 我 们 需要 给 任 一 节点 的 秩 R( 子 节点 的 个 数 ) 确 定 一 个 界 。 现 在 
我 们 证 明 具 有 N 个 后 高 的 任意 节点 的 秩 为 O(logN) 
引 理 11.1 
4 X 是 辈 波 那 契 堆 中 的 任 一 节点 。 令 c; 为 X 的 第 i 个 最 年 轻 的 儿子 。 则 c 的 秩 至 少 是 
i-2. 
证 明 : 
在 c; 被 链接 到 X 上 的 时 候 ,X 已 经 有 (年 长 的 ) 儿 子 c1,c2,………， ciio 于 是 , 当 链 接 到 c 
时 X 至 少 有 i -1 个 儿子 。 由 于 节点 只 有 当 它 们 有 相同 的 秩 的 时 候 才 链接 ,由 此 可 知 在 c; 
被 链接 到 X 上 的 时 候 c; 至 少 也 有 i - 1 个 儿子 。 从 这 个 时 候 起 , 它 已 经 至 多 失去 一 个 子 
节点 ,不 然 的 话 它 就 已 经 被 从 X 切除 。 因 此 ,ci 至 少 有 ;i -2 个 儿子 。 
从 引 理 11.1 容易 证 明 , 秩 为 R 的 任意 节点 必然 有 许多 的 后 商 。 
引 理 11.2 
A> F, fet Fy=1, PF, 7 1, UA Fy = F,-, + Fe-2@ 1.2 节 ) 的 斐 波 那 契 数 。 秩 为 
RR 宇 1 的 任意 节点 至 少 有 FR +1 个 后 裔 (包括 它 自己 )。 : 
证 明 : 
令 SR 是 秩 为 R 最 小 的 树 。 显 然 ,So= 1 和 St= 2。 根 据 引 理 11.1, 秩 为 R 的 一 棵 树 含有 
KEDY R-2,R-3,..-5 1,8 0 的 子 树 ,再 加 上 另 一 棵 至 少 有 一 个 节点 的 子 树 。 连 同 
SR 的 根本 身 一 起 ,这 就 给 出 Se = 2 + VEG S. 的 Seri 的 一 个 最 小 值 。 容 易 证 明 ， 
SR = Fr+1( 练 习 1.9a)。 
因为 众所周知 斐 波 那 契 数 是 以 指数 增长 ,所 以 直接 推出 具有 s 个 后 裔 的 任意 节点 的 秩 最 
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BHO logs). FE RNA: 
512 11.3 
裴 波 那 契 堆 中 任意 节点 的 秩 为 O(logN )。 
证 明 : 
直接 从 上 面 的 讨论 得 出 。 
假如 我 们 所 关心 的 只 是 Merge Insert 以 及 DeleteMin 等 操作 的 时 间 界 ,那么 我 们 现在 本 
可 以 停止 并 证 明 所 要 的 排 还 时 间 界 了 。 当 然 , 斐 波 那 契 堆 的 全 部 意义 在 于 还 要 得 到 一 个 对 于 
DecreaseKey 的 O(1) 时 间 界 。 
对 于 一 次 DecreaseKey 操作 所 需要 的 实际 时 间 是 1 加 上 在 该 操作 期 间 所 执行 的 级 联 切 除 
的 次 数 。 由 于 级 联 切 除 的 次 数 可 能 会 比 O(1) 多 很 多 ,为 此 我 们 需要 用 位 势 的 损失 来 作为 补 
偿 。 从 图 11-20 我 们 看 到 , 树 的 棵 数 实际 上 是 随 着 每 次 级 联 切除 而 增加 ,因此 我 们 必须 增强 位 
势 函 数 , 使 它 包含 菜 种 在 级 联 切 除 期 间 能 够 递 碱 的 成 分 。 注 意 ,我 们 不 能 从 位 势 函 数 中 抛 开 树 
的 棵 数 ,因为 这 样 就 不 能 够 证 明 Merge 操作 的 时 间 界 了 。 再 次 观察 图 11-20 我 们 看 到 ,级 联 切 
除 引起 被 标记 的 节点 的 个 数 的 减少 ,因为 每 个 被 级 联 切除 分 出 的 节点 都 变 成 了 未 标记 的 根 。 
由 于 级 联 切 除 花费 1 个 单元 的 实际 时 间 并 将 树 的 位 势 增加 1, 因 此 我 们 将 每 个 标记 的 节点 算 
作 2 个 位 势 单位 。 利 用 这 种 方法 ,我 们 就 获得 一 种 消除 级 联 切除 次 数 的 机 会 。 
定理 11.4 
EI AB RHE XH F Insert, Merge 和 DecreaseKey 的 摊 还 时 间 界 均 为 O(1), 而 对 于 
DeleteMin 则 是 O(logN)。 
iEAA: 
位 势 是 斐 波 那 契 堆 的 集合 中 树 的 棵 数 加 上 两 倍 的 标记 节点 数 。 像 通常 一 样 DR I C 
为 0 并 且 总 是 非 负 的 。 于 是 ,经 过 一 系列 操作 之 后 ,总 的 排 还 时 间 则 是 总 的 实际 时 间 的 一 
个 上 界 。 
对 于 Merge 操作 ,实际 时 间 为 常数 ,而 树 和 标记 节点 的 数目 是 不 变 的 ,因此 根据 方程 
(11.2) , 摊 还 时 间 为 O(1)。 
对 于 Insert 操作 ,实际 时 间 是 常数 , 树 的 棵 数 增加 1, 而 标记 节点 的 个 数 不 变 。 因 此 ， 
位 势 最 多 增加 1, 所 以 挫 还 时 间 也 是 O(1)。 
对 于 DeleteMin 操作 , 令 R 为 包含 最 小 元 素 的 树 的 秩 ,并 令 T 是 操作 前 树 的 棵 数 。 
为 执行 一 次 DeleteMin, 我 们 再 一 次 将 树 的 儿子 分 离 ,得 到 另外 R 棵 新 的 树 。 注 意 ,虽然 
这 (通过 使 它们 成 为 未 标记 的 根 ) 可 以 除去 一 些 标记 的 节点 ,但 却 不 能 创建 另外 的 标记 节 
点 。 BOR 棵 新 树 , 和 其 余 T 棵 树 一 起 ,现在 必须 合并 ,根据 引 理 11.3 其 花费 为 了 + R+ 
logN=T + O(logN)。 由 于 最 多 可 能 有 O(logN) 棵 树 ,而 标记 节点 的 个 数 又 不 可 能 增 
加 ,因此 位 势 的 变化 最 多 是 O (logN) - T。 将 实际 时 间 和 位 势 的 变化 加 起 来 则 得 到 
DeleteMin 的 O(logN ) 排 还 时 间 界 。 
最 后 考虑 DecreaseKey 操作 。 令 C 为 级 联 切 除 的 次 数 。DecreaseKey 的 实际 花费 为 
C+1, 它 是 所 执行 的 切除 的 总 数 。 第 一 次 ( 非 级 联 ) 切 除 创建 一 棵 新 树 从 而 使 位 势 增 1。 
每 次 级 联 切 除 都 建立 一 棵 新 树 ,但 却 把 一 个 标记 节点 转变 成 未 标记 的 ( 根 ) 节 点 ,合计 每 次 
级 联 切除 有 一 个 单位 的 净 损失 。 最 后 一 次 切除 也 可 能 把 一 个 末 标 记 节 点 (在 图 11-20 中 
这 个 节点 为 5) 转变 成 标记 节点 ,这 就 使 得 位 势 增加 2。 因 此 ,位 势 总 的 变化 最 多 是 3 Co 
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把 实际 时 间 和 位 势 变化 加 起 来 则 得 到 总 和 为 4, 即 O(1)。 
11.5 伸展 树 


作为 最 后 一 个 例子 ,我 们 来 分 析 伸展 树 的 运行 时 间 。 由 第 4 章 得 知 ,在 对 某 项 X 进行 访 
问 之 后 ,一 步 展开 通过 下 述 三 种 一 系列 的 树 操作 将 X 移 至 根 处 : 单 旋转 (zig)、 之 字形 (zig-zag) 
旋转 和 一 字形 (zig-zig) 旋 转 。 树 的 这 些 旋转 如 图 11-21 所 示 。 我 们 约定 :如 果 在 节点 X 执行 
一 次 树 的 旋转 ,那么 旋转 前 P 是 它 的 父 节点 ,G 是 它 的 祖父 节点 ( 若 X 不 是 根 的 儿子 的 话 )。 


Cre C XR 





图 11-21 单 旋转 .之 字形 和 一 字形 双 旋转 操作 ,每 个 都 有 一 个 对 称 的 情形 (未 示 出 ) 


我 们 知道 ,对 节点 X 任意 的 树 操作 所 须 的 时 间 正 比 于 从 根 到 X 的 路 径 上 的 节点 的 个 数 。 
如 果 我 们 把 每 个 单 旋转 操作 计 为 一 次 旋转 ,把 每 个 之 字形 操作 或 一 字形 操作 计 为 两 次 旋转 , 那 
么 任何 访问 的 花费 等 于 1 加 上 旋转 的 次 数 。 

为 了 证 明 展开 操作 的 O(logN) 摊 还 时 间 界 ,我 们 需要 一 个 位 势 函数 ,该 函数 对 整个 展开 
操作 最 多 能 够 增加 O(logN) 而 且 在 操作 期 间 也 消除 所 执行 的 旋转 的 次 数 。 找 出 满足 这 些 原 
则 的 位 势 函 数 根本 不 是 一 件 容易 的 事情 。 首 先 容易 猜 到 的 位 势 函 数 或 许 就 是 树 上 所 有 节点 的 
深度 的 和 。 这 个 猜测 行 不 通 ,因为 位 势 在 一 次 访问 期 间 可 能 增加 B(N)。 当 一 些 元 素 以 连贯 
顺序 插入 时 会 有 这 样 的 典型 例子 发 生 。 

一 个 确实 有 效 的 位 势 函数 中 定义 为 

(T) = Slows) 


其 中 S(i) 代 表 i BUR BEY PK EH i 自身 )。 这 个 位 势 函 数 是 对 树 所 有 节点 i 所 取 的 
SC) 的 对 数 和 。 
为 简化 记号 ,我 们 定义 : 
R(i)=logS(i) 
这 使 得 
G(T) = XRG) 
R(i) 代 表 节 点 i 的 秩 。 这 个 术语 类 似 于 我 们 在 不 相交 集 算法 分 析 、 二 项 队列 和 斐 波 那 契 堆 中 
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所 使 用 的 术语 。 在 所 有 这 些 数据 结构 中 , 秩 的 意义 多 少 有 些 不 同 ,不 过 , 秩 一 般 地 是 指 树 的 大 
小 的 对 数 的 阶 ( 幅度, magnitude). FRA N 个 节点 的 一 棵 树 工 , 根 的 秩 就 是 R(T)= 
logN。 用 秩 的 和 作为 位 势 函 数 类 似 于 使 用 高 度 的 和 作为 位 势 函 数 。 重 要 的 差别 在 于 , 当 一 次 
旋转 可 以 改变 树 中 许多 节点 的 高 度 时 , 却 只 有 X P FIG 的 秩 发 生变 化 。 
在 证 明 主 要 的 定理 之 前 ,我 们 需要 下 列 的 引 理 。 
引 理 11.4 
WMR at bxc. E a Mb 均 为 正 整 数 ,那么 
引 loga + logbxz2logc - 2 
| 证 明 : 
根据 算术 -几何 平均 不 等 式 ， 
Vab<(at+b)2 


于 是 
Y absc/2 
两 边 平方 得 到 
abc 
两 边 再 取 对 数 则 定理 得 证 。 
我 们 现在 就 来 证 明 主要 定理 ,证 明 过 程 中 要 注意 所 用 到 的 一 些 预备 知识 。 
定理 11.5 
在 节点 X 展开 一 棵 根 为 了 的 树 的 排 还 时 间 最 多 为 3(RCT)- ROO) + 1 = O(logN)。 
EAR: 


位 势 函数 取 为 中 节点 的 秩 的 和 。 

如 果 X 是 全 的 根 ,那么 不 存在 旋转 ,因此 位 势 没有 变化 。 访 问 该 节点 的 时 间 是 1; 于 
是 , 推 还 时 间 为 1, 定理 成 立 。 因 此 ,我 们 可 以 假设 至 少 有 一 次 旋转 。 

对 于 任意 一 步 展开 操作 , 令 ROOM S;(X) 是 在 这 步 操作 前 X 的 秩 和 大 小 ,并 令 
R/(X) 和 Sr(X) 是 在 这 步 展开 操作 后 X 的 秩 和 大 小 。 我 们 将 证 明 对 一 次 单 旋转 所 需要 
的 摊 还 时 间 最 多 为 3(Rr(X) - Ri(X))+1 ,而 对 一 次 之 字形 旋转 或 一 字形 旋转 的 挫 还 时 
间 最 多 为 3(R/(X) - Ri(X))。 我 们 将 证 明 , 当 我 们 对 所 有 各 步 展开 求 和 时 ,所 得 到 的 和 
就 是 想 要 的 时 间 界 。 

一 步 单 旋转 :对 于 单 旋转 ,实际 时 间 为 1, 而 位 势 变 化 为 Ri(X) + RCP) - ROO - 
R;(P)。 注 意 ,位 势 变 化 容易 计算 ,因为 只 有 X 的 和 PP 的 树 大 小 有 变化 。 于 是 ， 

AT vig =1+R/(X)+RI(P)- R(X)- Ri(P) 
从 图 11-21 我 们 看 到 SP) S CP) ,因此 得 到 R;(P) 宇 Ri(P)。 这 样 ， 
AT.a<1+ Ri(X)- Ri(X) 
由 于 S/(X) 宇 S,(X), 于 是 R(X) - Ri(X) 之 0, 因 此 我 们 可 以 增加 右边 ,得 到 
ATse<1+3(Rr(X) -Ri(X)) 

一 步 之 字形 旋转 :对 于 这 种 情况 ,实际 的 花费 是 2, 而 位 势 变化 为 Rr(X) + Ry(P)+ 

R,(G) - ROO - Ri(P)- Ri(G)。 这 就 给 出 一 个 排 还 时 间 界 
(447| AT agmg =2+ R(X) + RP) + RD 7 RO 7 KG) - Ri(G) 
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从 图 11-21 我 们 看 到 ,Sr(X) = Si;(G ) ,于 是 它们 的 秩 必 然 相等 。 因 此 我 们 得 到 
ATa wg 72* RP) * RG) 7 RO 7 RP) 
我 们 还 看 到 S(P)SS(X). Ail Ri(X) 和 Ri(P)。 代 入 右边 得 到 
AT agag <2 + Ry(P) + R;(G)-2R;(X) 
从 图 11-21 我 们 看 到 Sr(P) + S(G)<S/(X). WRITES HE 11.4, 那 么 我 们 得 到 
logS/(P)+logS/(G)<2logS/(X) -2 
由 秩 的 定义 可 知 , 它 变 成 
RAP) + R(G)S2R;(X) -2 
我 们 将 其 代入 则 得 
AT wa <2R/(X) -2Ri(X) 
OD -R(X)) 
由 于 Rj(X) 之 Ri(X) ,因此 我 们 得 到 
AT s <3(R/(X)— Ri(X)) 

一 步 一 字形 旋转 :第 三 种 情况 是 一 字形 旋转 。 这 种 情形 的 证 明 非 常 类 似 于 之 字形 的 
情形 。 重 要 的 不 等 式 是 Ri(X)= R;(G), Ri(X) 宇 Ri(P), Ri(X) 志 Ri(P), 以 及 
Si(X)+ Sj(G) 志 Sj(X)。 我们 把 具体 细节 留 作 练习 11.8。 

整个 展开 的 捧 还 花费 是 各 步 展开 的 摊 还 花费 的 和 。 图 11-22 显示 在 节点 2 的 一 次 展开 
中 所 执行 的 各 步 展开 的 过 程 。 令 Ri(2) .Raz(2)、Ra(2) 和 R4(2) 是 这 4 棵 树 每 棵 在 节点 2 的 
秩 。 第 一 步 是 之 字形 旋转 ,其 花费 最 多 为 3(Rz(2) - Ri(2))。 第 二 步 是 一 字形 旋转 ,其 花费 
为 3(Ra(2) - Ra(2))。 最 后 一 步 是 单 旋转 ,花费 不 超过 3(Rs(2) - Ra3(2))+1。 因 此 总 的 花 
费 是 3(R4(2) - Ri(2))+1。 





图 11-22 在 节点 2 展开 中 涉及 到 的 展开 各 步 


_ 般 地 ,通过 把 所 有 旋转 一 其 中 最 多 有 一 个 旋转 可 能 是 一 次 单 旋 转 一 一 的 摊 还 时 间 
加 起 来 ,我 们 看 到 ,在 节点 X 展开 的 总 的 时 间 最 多 为 3(Rr(X)- ROO) +1, 其 中 R(X) 是 
X 在 第 一 步 展 开 前 的 秩 ,而 Rr(X) 是 X 在 最 后 一 步 展开 后 的 秩 。 由 于 最 后 一 次 展开 把 X 
留 在 根 处 ,因此 我 们 得 到 3(Ri(T) - ROO) +1 的 挫 还 界 ,这 个 界 为 O(log N)o 
HARER A OT Td Je HE — DI 
开 的 摊 还 时 间 的 一 个 常数 倍数 之 内 。 因 此 ,所 有 伸展 树 操作 花费 O(log N) 摊 还 时 间 。 通 过 
使 用 更 一 般 的 位 势 函数 ,能 够 证 明 伸展 树 具有 若干 显著 的 性 质 -= 更 多 的 细节 在 练习 中 讨论 。 
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总 结 


我 们 在 这 一 章 看 到 排 还 分 析 是 如 何 用 于 在 一 些 操作 间 分 配 负荷 。 为 了 进行 分 析 ,我 们 构 
造 一 个 虚构 的 位 势 函 数 ,这 个 位 势 函 数 度量 系统 的 状态 。 高 位 势 的 数据 结构 是 易 变 的 , 它 建立 
在 相对 低廉 的 操作 之 上 。 当 昂贵 的 花费 来 自 一 次 操作 的 时 候 , 它 会 由 前 面 一 些 操作 节省 下 的 
积蓄 来 支付 。 可 以 把 位 势 看 成 是 对 付 灾难 的 潜能 ,因为 非常 昂贵 的 操作 只 有 在 数据 结构 具有 
一 个 高 位 势 以 及 已 经 使 用 的 时 间 比 规定 的 时 间 少 很 多 时 才 可 能 发 生 。 

数据 结构 中 的 低位 势 意味 着 每 次 操作 的 花费 大 致 等 于 指定 给 它 的 消耗 量 。 负 位 势 意味 着 
欠 债 ;花费 的 时 间 多 于 规定 的 时 间 ,因此 分 配 (或 排 还 ) 的 时 间 不 是 一 个 有 意义 的 界 。 

正如 方程 (11.2) 所 表达 的 ,一 次 操作 的 掩 还 时 间 等 于 实际 时 间 和 位 势 变化 的 和 。 整 个 操 
作 序列 的 掩 还 时 间 等 于 总 的 序列 操作 时 间 加 上 位 势 的 净 变 化 。 只 要 这 个 净 变 化 是 正 的 ,那么 
摊 还 界 就 提供 实际 时 间 花 费 的 一 个 上 界 并 且 是 有 意义 的 。 

选择 位 势 函数 的 关键 在 于 保证 最 小 的 位 势 要 产生 在 算法 的 开始 ,并 使 得 位 势 对 低廉 的 操 
作 增加 而 对 高 兄 的 操作 减少 。 重 要 的 是 过 剩 或 节省 的 时 间 要 由 位 势 中 相反 的 变化 来 度量 。 不 
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,有 时 候 这 说 着 容易 做 起 来 难 。 


什么 时 候 向 一 个 二 项 队列 进行 连续 M 次 插入 的 花费 少 于 2M 个 时 间 单 位 的 时 间 ? 
设 建立 一 个 有 N 22! - 1 个 元 素 的 二 项 队列 ,交替 进行 M 对 Insert 和 DeleteMin 操 
作 。 显 然 ,每 次 操作 花费 O(log N) 时 间 。 为 什么 这 与 插入 的 O(1) 摊 还 时 间 界 不 巴 
盾 ? 
通过 给 出 一 系列 导致 一 次 合并 需要 9(N) 时 间 的 操作 ,证 明 对 于 课文 中 描述 的 斜 堆 
操作 的 O(log N) 摊 还 界 不 能 转换 成 最 坏 情形 界 。 
指出 如 何 进行 一 趟 自 顶 向 下 地 合并 两 个 斜 堆 并 将 合并 的 花费 减 到 O(1) 摊 还 时 间 。 
扩展 斜 堆 以 支持 具有 O(log N ) 排 还 时 间 的 DecreaseKey 操作 。 
实现 斐 波 那 契 堆 并 比较 其 与 二 又 堆 在 用 于 Dijkstra 算法 时 的 性 能 。 
斐 波 那 契 堆 的 标准 实现 方法 需要 每 个 节点 四 个 指针 (父亲 \ 儿 子 以 及 两 个 兄弟 )。 指 
出 如 何 减少 指针 的 数量 而 运行 时 间 花费 最 多 是 一 个 常数 因子 。 
证 明 一 次 一 字形 展开 的 推 还 时 间 多 为 3(Rj(X)- Ri(X))。 
通过 改变 位 势 函数 能 够 证 明 展开 的 不 同 的 界 。 令 权 函 数 (weight function) WC 站) 为 指定 
给 树 中 每 个 节点 的 菜 个 函数 , 令 S(i) 为 以 i 为 根 的 子 树 上 所 有 节点 (包括 节点 i 本 身 ) 
的 权 的 和 。 对 于 与 用 在 展开 界 的 证 明 中 的 该 函数 相对 应 的 所 有 的 节点 ,特殊 情况 为 
W(i) 21.4 N 为 树 中 节点 的 个 数 ,并 令 M 为 访问 的 次 数 。 证 明 下 列 两 个 定理 : 
a. 总 的 访问 时 间 是 O(M+ (M+N)logN)。 

+b. 如 果 qg 为 项 i 被 访问 的 次 数 ,而 对 所 有 的 iqi >0, 那 么 总 的 访问 时 间 为 


O(M + $; alog(M/ai)) 
a. 指出 如 何 实现 对 伸展 树 的 Merge 操作 使 得 从 N 个 单元 素 树 开始 的 任意 N -1 
次 Merge 操作 序列 花费 OCNlog? N) 时 间 。 
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+b. 将 这 个 界 改进 为 O( NlogN)。 

11.11 我 们 在 第 5 章 描述 了 再 散 列 (rehashing) : 当 一 个 表 的 表 元 素 超 过 容量 一 半 的 时 候 , 则 
构造 一 个 两 倍 大 的 新 表 , 且 整个 老 表 要 重新 被 散 列 。 使 用 位 势 函数 给 出 一 个 正式 的 
摊 还 分 析 来 证 明 一 次 插入 操作 的 排 还 时 间 为 O(1)。 

11.12 ”证明 ,如 果 不 允 许 删 除 ,那么 到 一 棵 N- 35 2-3 树 的 任意 顺序 的 M 次 插入 操作 产生 
O(M+N) 次 节点 分 裂 。 

11.13 具有 堆 序 的 双 端 队列 (deque) 是 由 一 些 项 的 表 组 成 的 数据 结构 ,可 以 对 其 进行 下 列 操 
作 : 
Push(X,DD): 将 项 XX 插入 到 双 端 队列 D 的 前 端 。 
Pop(DD): 从 双 端 队列 D 中 除去 前 端 项 并 将 它 返回 。 
lnject(X,D): 把 项 X 插入 到 双 端 队列 的 尾 端 。 
Eject(DD): 从 双 端 队列 D 中 除去 尾 端 项 并 将 它 返回 。 
FindMin(D): 返 回 双 端 队列 的 最 小 项 。 
a. 描述 如 何以 每 个 操作 常数 摊 还 时 间 支 持 这些 操 作 。 

**b. 描述 如 何以 每 个 操作 常数 最 坏 情形 时 间 支 持 这 些 操作 。 

11.14 证 明 二 项 队列 实际 上 以 O(1) 摊 还 时 间 支 持 合并 操作 。 定 义 二 项 队列 的 位 势 为 树 的 

棵 数 加 上 最 大 的 树 的 秩 。 
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我 们 在 这 一 章 讨论 七 种 重点 在 于 实用 的 数据 结构 。 首 先 考查 第 4 章 讨论 过 的 AVL 树 的 
变种 ,包括 优化 的 伸展 树 , 红 黑 树 ,( 在 前 面 第 10 章 讨论 过 的 ) 跳 路 表 的 确定 性 的 形式 ,AA- 树 ， 
以 及 treap 树 。 

然后 我 们 考查 一 种 可 以 用 于 多 维 数据 的 数据 结构 。 在 这 种 情况 下 ,每 一 项 均 可 有 若干 关 
键 字 。k-d 树 对 任何 关键 字 都 能 进行 相关 的 查找 。 

最 后 ,我们 考查 配对 堆 (pairing heap) ,虽然 缺乏 分 析 结 果 , 但 是 它 似 乎 是 辈 波 那 身 堆 最 实 
用 的 变种 。 

复议 的 论题 包括 : 

。 在 适当 的 时 候 非 递归 的 自 项 向 下 (而 不 是 从 底 向 上 ) 的 查找 树 的 各 种 实现 方法 。 

* 详细、 优化 的 尤其 是 利用 标记 节点 的 实现 方法 。 


12.1 自 顶 向 下 伸展 树 


在 第 4 章 ,我 们 讨论 了 基本 的 伸展 树 操作 。 当 一 项 X 作为 一 片 树叶 被 插入 时 , 称 为 展开 
(splay) 的 一 系列 树 的 旋转 使 得 X 成 为 树 的 新 的 根 。 展 开 操 作 也 在 查找 期 间 执行 ,而 且 如 果 一 
项 也 没有 找到 ,那么 就 要 对 访问 路 径 上 的 最 后 的 节点 施行 一 次 展开 。 在 第 11 章 ,我 们 指出 一 
次 展开 树 操作 的 挫 还 时 间 为 O(logN)。 

这 种 展开 操作 的 直接 实现 需要 从 根 沿 树 往 下 的 一 次 饥 历 ,以 及 而 后 的 从 底 向 上 的 一 次 饥 
历 。 这 或 者 可 以 通过 保存 一 些 父 指针 来 完成 ,或 者 通过 将 访问 路 径 存储 到 一 个 栈 中 来 完成 。 
但 遗憾 的 是 ,这 两 种 方法 均 需 大 量 的 开销 ,而 且 二 者 都 必须 处 理 许多 特殊 的 情况 。 在 这 一 节 ， 
我 们 指出 如 何在 初始 访问 路 径 上 施行 一 些 旋 转 。 结 果 得 到 在 实践 中 更 快 的 过 程 ,只 用 到 O(1) 
的 额外 空间 ,但 却 保持 了 O(logN ) 的 摊 还 时 间 界 。 

图 12-1 指出 单 旋转 .一 字形 和 之 字形 情形 的 旋转 。( 照 惯例 ,忽略 三 种 对 称 的 旋转 .) 在 访 
问 的 任 一 时 刻 , 我 们 都 有 一 个 当前 节点 X, 它 是 其 子 树 的 根 ;在 我 们 的 图 中 它 被 表示 成 “中 间 ” 
PLOR L 把 节点 都 存放 在 小 于 X 的 树 工 中 ,但 不 在 X 的 子 树 中 ;类 似 地 , 树 R 把 节点 仔 在 大 
于 X 的 子 树 中 ,但 不 在 X 的 子 树 中 。 初 始 时 XS T HR, T L 和 R 是 空 树 。 

如 果 旋 转 是 一 次 单 旋转 ,那么 根 在 Y 的 树 变 成 中 间 树 的 新 根 。X AFB 连接 而 成 为 R 
中 最 小 项 的 左 儿子 ;X 的 左 儿子 逻辑 上 成 为 NULL。S 结 果 ,X 成 为 R 的 新 的 最 小 项 。 特 别 要 
注意 ,为 使 单 旋转 情形 适用 , Y 不 一 定 必须 是 一 片 树叶 。 如 果 我 们 查找 小 于 Y 的 一 项 ,而 Y 
没有 左 儿 子 (但 确 有 一 个 右 儿 子 ) ,那么 这 种 单 旋转 情形 将 是 适用 的 。 





日 为 简单 起 见 ,我 们 不 区 分 一 个 “节点 "和 该 节点 中 的 项 。 
O 在 程序 中 R 的 最 小 节点 没有 NULL 左 指针 ,因为 没有 必要 。 这 意味 着 ,PrintTree( REEL A AEM, PEGE HE 


不 在 R 中 。 
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图 12-1 自 顶 向 下 展开 旋转 : 单 旋转 ,一 字形 旋转 及 之 字形 旋转 





对 于 一 字形 情形 ,我 们 有 类 似 的 剖析 。 关 键 是 在 X 和 Y 之 间 施行 一 次 旋转 。 之 字形 情形 
的 旋转 把 底部 节点 Z 带 到 中 间 树 的 顶部 ,并 把 子 树 X 和 了 分 别 附 接 到 R 和 上 。 注 意 , Y 
被 附 接 从 而 成 为 L 中 的 最 大 项 。 

之 字形 旋转 这 一 步 多 少 可 以 得 到 简化 ,因为 没有 旋转 要 执行 ,Z 不 再 是 中 间 树 的 根 , Y 取 
而 代 之 ,如 图 12-2 所 示 。 因 为 之 字形 情形 的 动作 变 成 与 单 旋转 情形 相同 ,所 以 编程 得 到 简化 。 
看 起 来 这 是 有 利 的 ,因为 对 大 量 情形 的 测试 是 要 费时 的 。 其 缺点 是 ,仅仅 为 了 降低 一 层 ,我 们 
在 展开 过 程 中 却 要 进行 更 多 的 选 代 。 


地 (9. 
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图 12-2 简化 的 自 顶 向 下 的 之 字形 旋转 
图 12-3 指出 一 旦 执行 完 最 后 一 步 展开 我 们 将 如 何 处 理 LR 和 中 间 树 以 形成 一 棵 树 。 特 


别 要 注意 ,这 里 的 结果 不 同 于 从 底部 向 上 的 展开 。 关 键 的 问题 在 于 这 里 保持 了 O(logN) 的 扒 
还 界 (练习 12.1)。 
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E123 自 顶 向 下 展开 的 最 后 整理 
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项 部 向 下 展开 算法 的 一 个 例子 如 图 12-4 所 示 。 我 们 想 要 访问 树 中 的 19。 第 一 步 是 一 个 
之 字形 旋转 。 根 据 图 12-2( 的 对 称 形 式 ) ,我 们 把 根 在 25 的 子 树 带 到 中 间 树 的 根 处 ,并 把 12 和 





它 的 左 子 树 接 到 L 上 。 


Empty 


图 12-4 《访问 上 面 树 中 19) 自 顶 向 下 展开 的 





各 步 


下 一 步 是 一 个 一 字形 旋转 :15 被 提高 到 中 间 树 的 根 处 ,并 在 20 和 25 之 间 进 行 一 次 旋转 ， 
所 得 到 的 子 树 被 连接 到 R 上 。 此 时 查找 19 导致 终止 单 旋转 。 中 间 树 的 新 根 为 18, 而 15 和 它 
的 左 子 树 作为 L 的 最 大 节点 的 右 儿子 被 接 上 。 根 据 图 12-3 重新 组 装 则 结束 该 步 展开 。 
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第 有 左 指针 和 右 指针 的 一 个 头 节点 最 终 包含 左 树 的 根 和 右 树 的 根 。 由 于 这 两 棵 
树 初始 为 空 ， 因 此 使 用 一 个 头 分 别 对 应 初始 状态 右 树 或 左 树 的 最 小 或 最 大 节点 。 这 种 方法 可 
以 使 得 程序 避免 检测 空 树 。 第 一 次 左 树 变 成 非 空 时 ， 右 指针 将 被 初始 化 并 在 以 后 保持 不 变 。 
这 样 ， 在 自 顶 向 下 查找 的 最 后 ， 它 将 包含 右 树 的 根 。 类 似 地 ， 左 指针 最 终 将 包含 右 树 的 根 。 

图 12-5 所 示 的 过 程 Initialize 用 来 分 配 NullNode 标记 。 我 们 使 用 标记 NullNode 表示 一 -个 
NULL 指针 。 我 们 将 反复 使 用 这 种 技术 来 简化 程序 (因而 使 得 程序 多 少 要 快 一 些 )。 图 12-6 
给 出 展开 过 程 的 程序 。 这 里 的 Header 节点 使 我 们 肯定 能 够 把 X BIR 的 最 大 节点 上 而 不 必 


担心 R 可 能 是 空 的 (对 于 处 理 L. 的 对 称 的 情形 类 似 地 进行 )。 


正如 我 们 上 面 提 到 的 ,在 展开 末尾 重新 组 装 之 前 ,Header.Left 和 Header. Right 分 别 指 着 
及 和 (这 不 是 一 个 排 印 错 误 一 遵从 指针 的 指向 )。 除 了 这 个 细节 之 外 ， 该 程序 是 相对 简 


单 的 。 





wifndef Splay H 


struct SplayNode; 
typedef struct SplayNode *SplayTree; 


SplayTree MakeEmpty( SplayTree T ); 

SplayTree Find( ElementType X, SplayTree T ); 

SplayTree FindMin( SplayTree T ); 

SplayTree FindMax( SplayTree T ); 

SplayTree Initialize( void ); 

SplayTree Insert( ElementType X, SplayTree T ); 
Splayrree Remove( ElementType X, SplayTree T ); 
ElementType Retrieve( SplayTree T ); /* Gets root item */ 


wendif /* _Splay_H */ 


/* Place in the implementation file */ 
struct SplayNode 


ElementType Element; 
SplayTree Left; 
SplayTree Right; 
y 
typedef struct SplayNode *Position; 
static Position NullNode = NULL; /* Needs initialization */ 


SplayTree 
Initialize( void ) 


ifC NuTINode == NULL ) 


NullNode = malloc( sizeof( struct SplayNode ) ); 
if( NuTINode == NULL ) 

FatalError( "Out of space!!!" ); 
NullNode-»Left = NullNode-»Right = NullNode; 


) 
return NullNode; 
t 











图 12.5 ”伸展 树 :声明 和 初始 化 
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/* Top-down splay procedure, */ 
/* not requiring Item to be in the tree */ 


SplayTree 

Splay( ElementType Item, Position X ) 

{ 
static struct SplayNode Header; 
Position LeftTreeMax. RightTreeMin; 


Header.Left = Header.Right = NullNode; 
LeftTreeMax = RightTreeMin = &Header; 
NulINode->Element = Item; 


while( Item {= X->Element ) 
if( Item < X-»£lenent ) 


if( Item < X->Left->Element ) 
X = SingleRotatewithLeft( X ); 
if( X-»Left == NullNode ) 
break; 
/* Link right */ 
RightTreeMin-»Left = X; 
RightTreeMin = X; 
X = X->Lefti 
} 
else 


if Item > X->Right->Element ) 

X = SingleRotatewithRight( X ); 
if( X->Right == NullNode ) 

break; 
/* Link Left */ 
LeftTreeMax-»Right = X; 
LeftTreeMax = X; 
X = X->Righti 


} 
) /* while Item !- X->Element */ 


/* Reassemble */ 
LeftTreeMax-»Right = X-»Left; 
RightTreeMin->Left = X->Right; 
X->Left = Header. Right; 
X-»Right = Header. Left; 


return X; 











图 12-6 自 顶 向 下 的 展开 过 程 


图 12-7 显示 将 一 项 插入 到 树 T 中 的 过 程 。 一 个 新 的 指针 (如 果 需 要 ) 被 分 配 , 且 如 果 T 
是 空 的 ,那么 建立 一 棵 单 节点 树 。 否 则 ,我 们 围绕 Item 展开 了。 dT 的 新 根 的 数据 等 于 
ltem, 则 我 们 有 一 个 复制 拷贝 ;我们 不 是 再 次 插入 Item, 而 是 为 将 来 的 插入 保留 NewNode 并 
立即 返回 。 如 果 T 的 新 根 包含 有 大 于 Dem 的 值 ,那么 的 新 根 和 它 的 右 子 树 变 成 NewNode 
的 一 棵 右 子 树 ,而 T 的 左 子 树 则 成 为 NewNode 的 左 子 树 。 如 果 T 的 新 根 包含 有 小 于 Ttem 的 
值 ,那么 类 似 的 逻辑 仍然 适用 。 在 这 两 种 情况 下 ,NewNode 均 成 为 新 的 根 。 
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SplayTree 
Insert( ElementType Item, SplayTree T ) 


static Position NewNode = NULL; 
if( NewNode == NULL ) 
[ 
NewNode = malloc( sizeof( struct SplayNode ) ); 


if( NewNode == NULL ) 
Fataltrror( "Out of space!! 





» 
tH 
NewNode->Element = Item; 


if( T == NullNode ) 
{ 
NewNode-»Left = NewNode->Right = NullNode; 
T = NewNode; 
} 
else 
t 
T = Splay( Item, T ): 
if( Item < T->Element ) 
[ 
NewNode-»Left = T-»Left: 
NewNode->Right = T; 
T-»Left = NullNode; 
T = NewNode; 
} 


else 

if( T->Elenent < Item ) 

{ 
NewNode->Right = T->Right; 
NewNode-»Left = T 
T-»Right = NullNode; 
T = NewNode; 

) 

else 
return T; /* Already in the tree */ 

) 


NewNode = NULL; /* So next insert will call malloc */ 
return T; 











图 12-7 自 项 向 下 伸展 树 的 插入 


在 第 4 章 , 我 们 证 明了 伸展 树 中 的 删除 是 容易 的 ,因为 一 次 展开 将 把 删除 目标 放 在 根 处 。 
最 后 我 们 指出 图 12-8 中 的 删除 例 程 。 删 除 过 程 比 对 应 的 插入 过 程 还 要 短 ,确实 罕见 。 
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SplayTree 
Renove( ElementType Item, SplayTree T ) 
Position NewTree 


if( T t= NuTINode ) 
t 
T = Splay( Item, T); 
if( Item == T->Element ) 
1 
/* Found it! */ 
if( T->Left == NullNode ) 
NewTree = T->Right; 
else 
{ 
NewTree = T->Left 
NewTree = Splay( Item, NewTree ); 
NewTree->Right = T->Right; 


} 
free T); 
T = NewTree; 
$ 
上 


return T; 
} 











图 12-8 自 项 向 下 的 删除 过 程 


12.2 £ Rl 


历史 上 AVL 树 流行 的 另 一 变种 是 红 黑 树 (red black tree)。 对 红 黑 树 的 操作 在 最 坏 情形 
下 花费 O(logN) 时 间 , 而 且 我 们 将 看 到 , (对 于 插入 操作 的 ) 一 种 慎重 的 非 递 归 实现 可 以 相对 
容易 地 完成 (与 AVL 树 相 比 )。 

红 黑 树 是 具有 下 列 着 色 性 质 的 二 叉 查 找 树 : 

1. 每 一 个 节点 或 者 着 成 红色 ,或 者 着 成 黑色 。 

2. 根 是 黑色 的 。 

3. 如 果 一 个 节点 是 红色 的 ,那么 它 的 子 节点 必须 是 黑色 的 。 

4. 从 一 个 节点 到 一 个 NULL 指针 的 每 一 条 路 径 必须 包含 相同 数目 的 黑色 节点 。 

着 色 法 则 的 一 个 推论 是 , 红 黑 树 的 高 度 最 多 是 2log( N + 1)。 因 此 ,查找 保证 是 一 种 对 数 
的 操作 。 图 12-9 显示 一 棵 红 黑 树 ,其 中 的 红色 节点 用 双 圆 图 表示 。 
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和 通常 一 样 ,困难 在 于 将 一 个 新 项 插入 到 树 中 。 通 常 把 新 项 作为 树叶 放 到 树 中 。 如 果 我 
们 把 该 项 涂 成 黑色 ,那么 我 们 肯定 违反 条 件 4, 因 为 将 会 建立 一 条 更 长 的 黑 节点 的 路 径 。 因 
此 ,这 一 项 必须 涂 成 红色 。 如 果 它 的 父 节点 是 黑 的 ,我 们 插入 完成 。 如 果 它 的 父 节点 已 经 是 红 
色 的 ,那么 我 们 得 到 连续 红色 节点 ,这 就 违反 了 条 件 3。 在 这 种 情况 下 ,我 们 必须 调整 该 树 以 
确保 条 件 3 满足 ( 且 又 不 引起 条 件 4 被 破坏 )。 用 于 完成 这 项 任务 的 基本 操作 是 颜色 的 改变 和 
树 的 旋转 。 

12.2.1 自 底 向 上 插入 

我 们 已 经 提 到 ,如 果 新 插入 的 项 的 父 节点 是 黑色 的 ,那么 插入 完成 。 因 此 ,将 25 插入 到 图 
12-9 的 树 中 是 简单 的 操作 。 

如 果 父 节点 是 红色 的 ,那么 有 几 种 情形 (每 种 都 有 一 个 镜像 对 称 ) 需 要 考虑 。 首 先 ,假设 这 
个 父 节点 的 兄弟 是 黑 的 (我 们 采纳 约定 :NULL 节点 都 是 黑色 的 )。 这 对 于 插入 3 或 8 是 适用 
的 ,但 对 插入 99 不 适用 。 令 X 是 新 加 的 树叶 ,已 是 它 的 父 节点 ,S 是 该 父 节点 的 兄弟 ( 若 存 
在 ),G 是 祖父 节点 。 在 这 种 情形 只 有 X 和 P 是 红 的 ,G 是 黑 的 ,因为 否则 就 会 在 插入 前 有 两 
个 相连 的 红色 节点 ,违反 了 红 黑 树 的 法 则 。 采 用 伸展 树 的 术语 ,X,P 和 G 可 以 形成 一 个 一 字 
形 链 或 之 字形 链 (两 个 方向 中 的 任 一 个 方向 )。 图 12-10 指出 当 P 是 一 个 左 儿 子 时 (注意 有 一 
个 对 称 情形 ) ,我 们 如 何 旋转 该 树 。 即 使 X 是 一 片 树叶 ,我 们 还 是 画 出 更 一 般 的 情形 ,使 得 X 
在 树 的 中 间 。 后 面 我 们 将 用 到 这 个 更 一 般 的 旋转 。 
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图 12-10 如 果 S 是 黑 的 , 则 单 旋转 和 之 字形 旋转 有 效 


第 一 种 情形 对 应 P 和 G 之 间 的 单 旋转 ,而 第 二 种 情形 对 应 双 旋 转 , 该 双 旋转 首先 在 X 和 
书 间 进行 ,然后 在 X 和 G 之 间 进行 。 当 编写 程序 的 时 候 ,我 们 必须 记录 父 节 点 ,祖父 节点 ,以 
及 为 了 重新 连接 还 要 记录 曾祖 节点 。 

在 两 种 情形 下 , 子 树 的 新 根 均 被 涂 成 黑色 ,因此 ,即使 原来 的 曾祖 是 红 的 ,我 们 也 排除 了 两 
个 相 邻 红 节点 的 可 能 性 。 同 样 重要 的 是 ,这 些 旋转 的 结果 是 通 向 A, B 和 C 诸 路 径 上 的 黑 节 
点 个 数 保持 不 变 。 

到 现在 为 止 一 切 顺 利 。 但 是 ,正如 我 们 企图 将 79 插入 到 图 12-9 树 中 的 情况 一 样 ,如 果 S 
是 红色 的 ,那么 会 发 生 什么 情况 呢 ? 在 这 种 情况 下 ,初始 时 从 子 树 的 根 到 C 的 路 径 上 有 一 个 
黑色 节点 。 在 旋转 之 后 ,一 定 仍然 还 是 只 有 一 个 黑色 节点 。 但 在 两 种 情况 下 ,在 通 向 C 的 路 
径 上 都 有 三 个 节点 (新 的 根 ,G AS). 由 于 只 有 一 个 可 能 是 黑 的 ,又 由 于 我 们 不 能 有 连续 的 红 
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色 节 点 ,于 是 我 们 必须 把 S 和 子 树 的 新 根 都 涂 成 红色 ,而 把 G( 以 及 第 四 个 节点 ) 涂 成 黑色 。 
这 很 好 ,可 是 ,如 果 曾 祖 也 是 红色 的 那么 又 会 怎样 呢 ? 此 时 ,我们 可 以 将 这 个 过 程 朝 着 根 的 方 
向 上 滤 , 就 像 对 BB 树 和 二 叉 堆 所 做 的 那样 ,直到 我 们 不 再 有 两 个 相连 的 红色 节点 或 者 到 达 根 
( 它 将 被 重新 涂 成 黑色 ) 处 为 止 。 
12.2.2 自 顶 向 下 红 黑 树 

上 滤 的 实现 需要 用 一 个 栈 或 用 一 些 父 指针 保存 路 径 。 我 们 看 到 ,如 果 我 们 使 用 一 个 自 项 
向 下 的 过 程 ,实际 上 是 对 红 黑 树 应 用 从 顶 向 下 保证 S 不 会 是 红 的 过 程 , 则 伸展 树 会 更 有 效 。 

这 个 过 程 在 概念 上 是 容易 的 。 在 向 下 的 过 程 中 当 我 们 看 到 一 个 节点 X 有 两 个 红 儿 子 的 
时 候 , 我 们 让 X 成 为 红 的 而 让 它 的 两 个 儿子 是 黑 的 。 图 12-11 显示 这 种 颜色 翻转 的 现象 ,只 
有 当 X 的 父 节 点 P 也 是 红 的 时 候 这 种 翻转 将 破坏 红 黑 的 法 则 。 但 是 此 时 我 们 可 以 应 用 图 
12-10 中 适当 的 旋转 。 如 果 X 的 父 节点 的 兄弟 是 红 的 会 如 何 ? 这 种 可 能 已 经 被 从 顶 向 下 过 
程 中 的 行动 所 排除 ,因此 X 的 父 节点 的 兄弟 不 可 能 是 红 的 ! 特别 地 ,如 果 在 沿 树 向 下 的 过 程 
中 我 们 看 到 一 个 节点 Y 有 两 个 红 儿 子 , 那 么 我 们 知道 Y 的 孙子 必然 是 黑 的 ,由 于 Y 的 儿子 
也 要 变 成 黑 的 ,甚至 在 可 能 发 生 的 旋转 之 后 ,因此 我 们 将 不 会 看 到 两 层 上 另外 的 红 节点 。 这 
样 , 当 我 们 看 到 X , 若 X 的 父 节点 是 红 的 , 则 X 的 父 节点 的 兄弟 不 可 能 也 是 红 的 。 


® 
g © = © 
图 12-11 颜色 翻转 :只 有 当 X 的 父 节点 是 红 的 时 候 我 们 才能 继续 旋转 

例如 ,假设 我 们 要 将 45 插入 到 图 12-9 中 的 树 上 。 在 沿 树 向 下 的 过 程 中 ,我 们 看 到 50 有 
两 个 红 儿 子 。 因 此 ,我 们 执行 一 次 颜色 翻转 ,使 50 为 红 的 ,40 8155 是 黑 的 。 现 在 50 和 60 都 
是 红 的 。 我 们 在 60 和 70 之 间 执行 单 旋转 ,使 得 60 是 30 的 右 子 树 的 黑 根 ,而 70 和 50 都 是 红 
的 。 如 果 我 们 看 到 在 含有 两 个 红 儿 子 的 路 径 上 有 另外 一 些 节点 ,那么 我 们 继续 ,执行 同样 的 操 
作 。 当 我 们 到 达 树 叶 时 ,把 45 作为 红 节点 插入 ,由 于 父 节点 是 黑 的 ,因此 插入 完成 。 最 后 得 到 
的 树 如 图 12-12 所 示 。 








图 12-12 将 45 插入 到 图 12-9 中 


如 图 12-12 所 示 , 所 得 到 的 红 黑 树 常常 平衡 得 很 好 。 经 验 指出 ,平均 红 黑 树 大 约 和 平均 
AVL 树 一 样 深 ,从 而 查找 时 间 一 般 接近 最 优 。 红 黑 树 的 优点 是 执行 插入 所 需要 的 开销 相对 较 
低 , 再 有 就 是 实践 中 发 生 的 旋转 相对 较 少 。 

红 黑 树 的 具体 实现 是 复杂 的 ,这 不 仅 因为 有 大 量 可 能 的 旋转 ,而 且 还 因为 一 些 子 树 可 能 是 
空 的 (如 10 的 右 子 树 ) ,以 及 处 理 根 的 特殊 的 情况 (尤其 是 根 没有 父亲 )。 因此 ,我 们 使 用 两 个 


354 8123 





标记 节点 :一 个 是 为 根 ,一 个 是 NullNode, 它 的 作用 像 在 伸展 树 中 那样 是 指示 一 个 NULL 指 
针 。 根 标记 将 存储 关键 字 - cp 和 一 个 指向 真正 的 根 的 右 指针 。 为 此 ,查找 和 打印 过 程 需要 调 
整 。 递 归 的 例 程 都 很 巧妙 。 我 们 使 用 一 个 隐藏 的 递归 过 程 , 而 并 不 强迫 用 户 传递 T— Right. 
因此 用 户 不 必 关 心头 节点 。 图 12-13 指出 如 何 重新 编写 中 序 遍 历 。 





/* Print the tree, watch out for NullNode, */ 
/* and skip header */ 


static void 
DoPrint( RedBlackTree T ) 
{ 
if( T != NullNode ) 
{ 
DoPrint( T-»Left ); 
Output( T->Element ); 
DoPrint( T-»Right ); 
) 
J 


void 
PrintTree( RedBlackTree T ) 


DoPrint( T-»Right ); 











图 12-13 ”使 用 两 个 标记 对 树 的 中 序 饥 历 


我 们 还 需要 使 用 户 调用 例 程 Initialize 来 指定 头 节点 。 如 果 构造 的 是 第 一 棵 树 ,那么 Ini- 
tialize 应 该 再 为 NullNode 分 配 内 存 ( 其 后 的 树 可 以 分 享 NullNode)。 这 和 类 型 声明 一 起 如 图 
12-14 所 示 。 

接 下 来 ,图 12-15 显示 执行 一 次 单 旋转 的 例 程 。 因 为 得 到 的 树 必须 连接 到 父 节 点 上 ,所 以 
Rotate 把 该 父 节点 作为 一 个 参数 。 在 沿 着 树 下 行 的 时 候 ,我 们 把 Item 作为 参数 传递 ,而 不 是 
跟踪 旋转 的 类 型 。 由 于 我 们 希望 插入 过 程 中 旋转 很 少 ,因此 这 么 做 实际 上 不 仅 更 简单 ,而 且 还 
HR, Rotate 直接 返回 执行 相应 单 旋转 的 结果 。 

最 后 ,我 们 在 图 12-16 中 给 出 插 和 人 过 程 。 例 程 HandleReorient 当 我 们 这 到 带 有 两 个 红 儿 
子 的 节点 时 被 调用 ,在 我 们 插入 一 片 树叶 时 它 也 被 调用 。 惟 一 复杂 的 部 分 是 ,一 个 双 旋 转 实际 
上 是 两 个 单 旋转 ,而 且 只 有 当 通 向 X 的 分 支取 相反 方向 时 才 进 行 。 正 如 我 们 在 较 早 的 讨论 中 
提 到 的 , 当 沿 树 向 下 进行 的 时 候 , Insert 必须 记录 父亲 ,祖父 和 曾祖 。 注意 ,在 一 次 旋转 之 后 ， 
存储 在 祖父 和 曾祖 中 的 值 将 不 再 正确 。 不 过 ,可 以 肯定 到 下 一 次 再 需要 它们 的 时 候 它们 将 被 
重新 存储 。 

12.2.3 自 顶 向 下 删除 

红 黑 树 中 的 删除 也 可 以 自 项 向 下 进行 。 每 一 件 工作 都 归结 于 能 够 删除 一 片 树叶 。 这 是 因 
为 ,要 删除 一 个 带 有 两 个 儿子 的 节点 ,我 们 用 右 子 树 上 的 最 小 节点 代替 它 ;该 节点 必然 最 多 有 
一 个 儿子 ,然后 将 该 节点 删除 。 只 有 一 个 右 儿 子 的 节点 可 以 用 相同 的 方式 删除 ,而 只 有 一 个 左 
儿子 的 节点 通过 用 其 左 子 树 上 最 大 节点 替换 ,然后 可 将 该 节点 删除 。 注意 ,对 于 红 黑 树 , 我 们 
使 用 的 方法 绕 过 带 有 一 个 儿子 的 节点 的 情形 ,因为 这 可 能 在 树 的 中 部 连接 两 个 红色 节点 ,为 红 
黑 条 件 的 实现 增加 困难 。 
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typedef enum ColorType { Red, Black } ColorType; 


struct RedBlackNode 

{ 
ElementType Element 
RedBlackTree Left; 
RedBlackTree Righ 
ColorType — Color; 





k 
Position Nu11Node = NULL; /* Needs initialization */ 


/* Initialization procedure */ 
RedBlackTree 
Tnitialize( void ) 
{ 
RedBlackTree T; 


ifC NullNode = NULL ) 

{ 
Nu11Node == malloc( sizeof( struct RedBlackNode ) ); 
if( Nul Node == NULL ) 

FatalError( "Out of space!!!" ); 

NullNode-»Left = NullNode-»Right = NullNode; 
NullNode-»Color = Black; 
NullNode-»Element = Infinity; 





! 


/* Create the header node */ 
T = malloc( sizeof( struct RedBlackNode ) ); 
dfCT == NULL ) 

FatalError( "Out of spac 
T-»Element = NegInfinity; 
T->Left = T->Right = NullNode; 
T-»Color = Black; 





» 


return T; 











图 12-14 类 型 声明 和 初始 化 





/* Perform a rotation at node X */ 
/* (whose parent is passed as a parameter) */ 
/* The child is deduced by examining Item */ 


static Position 
Rotate( FlementType Item, Position Parent ) 


if( Item < Parent-»£lement ) 
return Parent->Left = Item < Parent-»Left-»Element ? 
SingleRotateWithLeft( Parent-»Left ) : 
SingleRotateWithRight( Parent-»Left ); 





else 

return Parent->Right = Item < Parent-»Right-»Element ? 
SingleRotatewithLeft( Parent->Right ) : 
SingleRotateWithRight( Parent->Right ); 








图 12-15 旋转 过 程 
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static Position X, P, GP, GGP; 


static 
vats HandleReorient( ElementType Item, RedBlackTree T ) 


X-»Color = Red; /* Do the color flip */ 
X-»Left-»Color = Black; 
X-»Right-»Color = Black; 


if( P->Color == Red ) /* Have to rotate */ 
{ 


CP->Color = Red; 
if( (Item < GP->Element) != (Item < P->Element) ) 
P = Rotate( Item, GP ); /* Start double rotation */ 
X = Rotate( Item, GGP ); 
X-»Color = Black; 


) 
T->Right->Color = Black; /* Make root black */ 
) 


RedBlackTree 
Insert( ElementType Item, RedBlackTree T ) 
1 
X=Pp=Cp=T; 
NullNode-»Element = Item; 
while( X->Element != Item ) /* Descend down the tree */ 


GGP = GP; GP = P; P= X; 
if( Item < X->Element ) 
X = X-oLeft; 
else 
X = XRight; 
if( X-»Left-»Color == Red && X->Right->Color == Red ) 
HandleReorient( Item, T ); 
) 


ifC X ! NuTINode ) 
return NullNode; /* Duplicate */ 


X = malloc( sizeof( struct RedBlackNode ) ); 
ifCX == NULL ) 

FatalError( "Out of space!!!" ); 
X-»Element = Item; 
X-»Left = X-»Right = NullNode; 


if( Item < P->Element ) /* Attach to its parent */ 
P->Left = Xi 

else 
P->Right = X; 

HandleReorient( Item, T ); /* Color red; maybe rotate */ 


return T; 











12-16 MATE 


当然 ,红色 树叶 的 删除 很 简单 。 然而 ,如 果 一 片 树叶 是 黑 的 ,那么 删除 操作 会 复杂 得 多 , 因 
为 黑色 节点 的 删除 将 破坏 条 件 4。 解决 方法 是 保证 从 上 到 下 删除 期 间 树叶 是 红 的 。 

在 整个 讨论 中 , 令 X 为 当前 节点 ,T 是 它 的 兄弟 ,而 P 是 它们 的 父亲 。 开始 时 我 们 把 树 
的 根 涂 成 红色 。 当 沿 树 向 下 遍历 时 ,我 们 设法 保证 X 是 红色 的 。 当 我 们 到 达 一 个 新 的 节点 
时 ,我 们 要 确信 已 是 红 的 (归纳 地 按照 我 们 试图 保持 的 这 种 不 变性 ) 并 且 X 和 了 是 黑 的 (因为 
我 们 不 能 有 两 个 相连 的 红色 节点 )。 存 在 两 种 主要 的 情形 。 
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首先 , 设 X 有 两 个 黑 儿 子 。 此 时 有 三 种 子 情 况 , 它 们 由 图 12-17 所 示 。 如 果 了 也 有 两 个 
黑 儿子 ,那么 我 们 可 以 翻转 X TAP 的 颜色 来 保持 这 种 不 变性 。 否 则 , T 的 儿子 之 一 是 红 
的 。 根据 这 个 儿子 节点 是 哪 一 个 ,我 们 可 以 应 用 图 12-17 所 示 的 第 二 和 第 三 种 情形 表示 的 旋 
转 。 特 别 要 注意 ,这 种 情形 对 于 树叶 将 是 适用 的 ,因为 NullNode 被 认为 是 黑 的 。 

设 X 的 儿子 之 一 是 红 的 。 在 这 种 情形 下 ,我 们 落 到 下 一 层 上 ,得 到 新 的 X.T 和 P。 如 果 
幸运 ,X 落 在 红 儿 子 上 , 则 我 们 可 以 继续 向 前 进行 。 如 果 不 是 这 样 ,那么 我 们 知道 了 将 是 红 
的 ,而 X 和 P 将 是 黑 的 。 我 们 可 以 旋转 T 和 已 ,使 得 X 的 新 父亲 是 红 的 ;当然 X 和 它 的 祖父 
将 是 黑 的 。 此 时 我 们 可 以 回 到 第 一 种 主 情况 。 





图 12-17 5 X 是 一 个 左 儿子 并 有 两 个 黑 儿 子 的 三 种 情形 


12.3 ”确定 性 跳跃 表 


我 们 看 到 的 用 于 红 黑 树 的 一 些 想法 可 以 应 用 到 跳跃 表 以 保证 对 数 最 坏 情形 操作 。 在 这 一 
节 , 我 们 描述 产生 数据 结构 的 最 简单 的 实现 方法 ,1-2-3 A CHE C (deterministic skip list) o 

回忆 第 10 章 讲 到 ,一 个 跳跃 表 中 的 节点 随机 指定 了 高 度 。 高 度 为 4 的 节点 包含 h 个 前 
向 指针 pi spass Pas p 指向 高 度 为 i 或 更 大 的 下 一 个 节点 。 一 个 节点 具有 高 度 h 的 概率 为 
0.5'( 为 了 实现 时 / 空 交换 ,0.5 可 以 用 0 和 1.0 之 间 的 任何 数 来 代替 )。 因此 ,我 们 期 望 只 处 
理 一 些 前 向 指针 直到 下 降 一 层 ;由 于 有 大 约 logN 层 ,因此 我 们 得 到 每 次 操作 O(logN) 的 期 望 
运行 时 间 。 

为 使 这 个 界 成 为 最 坏 情形 的 界 , 我 们 需要 保证 只 有 常数 个 前 向 指针 需要 考查 直到 下 降 到 





e 如 果 两 个 儿子 都 是 红 的 ,那么 我 们 可 以 应 用 两 种 旋转 中 的 任 一 种 。 通常 ,在 X 是 一 个 右 儿 子 的 情形 下 存在 对 称 的 
旋转 
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更 低 的 一 层 。 为 此 ,我 们 添加 一 个 平衡 条 件 。 首 先 需要 两 个 定义 。 

定义 :两 个 元 素 称 为 是 链接 的 (linked) ,如 果 至 少 存在 一 个 指针 从 一 个 元 素 指向 另 一 个 元 
素 。 

定义 :两 个 在 高 度 为 h 链接 的 元 素 间 的 间隙 容量 (gap size) 等 于 它们 之 间 高 度 为 hn-1 的 
元 素 的 个 数 。 

1-2-3 确定 性 跳跃 表 满 足 这 样 的 性 质 :每 一 个 间隙 ( 除 在 头 和 尾 之 间 可 能 的 零 间隙 外 ) 的 容 
量 为 1.2 或 3。 例 如 ,图 12-18 显示 一 个 1-2-3 确定 性 跳跃 表 。 有 两 个 容量 为 3 的 间隙 :第 一 个 
是 在 25 和 45 之 间 高 度 为 1 的 三 个 元 素 , 第 二 个 是 在 表 头 和 尾 之 间 高 度 为 2 的 三 个 元 素 。 尾 
节点 包含 co ; 它 的 出 现 简化 了 算法 并 使 得 定义 表 终端 间 辽 的 概念 更 容易 。 


上 i 
| n 


图 12-18 一 个 1-2-3 确定 性 跳跃 表 
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显然 , 当 我 们 沿 任 一 层 行进 仅仅 通过 常数 个 指针 然后 就 可 下 降 到 低 一 层 。 因 此 ,在 最 坏 的 
情形 下 查找 的 时 间 是 O(logN). 

为 了 执行 插入 ,我 们 必须 保证 当 一 个 高 度 为 h 的 新 节点 加 入 进来 时 不 会 产生 具有 四 个 高 
BEX h 的 节点 的 间隙 。 实 际 上 这 很 简单 ,我 们 采用 类 似 于 在 红 黑 树 中 所 做 的 自 项 向 下 的 方法 
即 可 。 

设 我 们 在 第 层 上 ,并 正 要 降 到 下 一 层 去 。 如 果 我 们 要 降 到 的 间 陈 容量 是 3, 那 么 我 们 提 
高 该 间隙 的 中 间 项 使 其 高 度 为 L ,从 而 形成 两 个 容量 为 1 的 间 阶 。 由 于 这 使 得 朝向 删除 的 道 
路 上 消除 了 容量 为 3 的 间隙 ,因此 插入 是 安全 的 。 

例如 ,图 12-19 显示 项 27 到 图 12.18 的 确定 性 跳跃 表 中 的 插入 操作 。 在 头 节点 ,我 们 将 要 
从 第 3 层 降 到 第 2 层 。 由 于 下 降 将 落 入 到 容量 为 3 HEBR, 因此 这 里 的 中 项 (25) 将 上 升 到 高 
IE 3 并 在 表 中 被 拼接 好 。 在 第 2 层 的 查找 将 我 们 带 到 25 ,我 们 需要 在 此 处 下 降 到 第 1 层 。 在 
这 里 又 见 到 容量 为 3 的 间 耻 ,因此 把 35 提升 到 高 度 2。 结 果 如 图 12-20 所 示 。 当 插入 27 的 时 
候 , 将 它 接 到 表 中 ,如 图 12-21 所 示 。 


- 1] 
realest = 


图 12-19 插入 27: 首 先 , 通 过 提升 25 将 含 3 个 高 度 2 的 节点 的 间隙 分 裂 


jl 2 
Hm nip 
"Es hah 


1220 插入 27: 其 次 ,通过 提升 35 将 含 3 个 高 度 1 的 节点 的 间隙 分 列 
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图 2-21 插入 27: 最 后 ,将 27 作为 高 度 为 1 的 节点 插入 













































































删除 的 困难 出 现在 间隙 容量 为 1 的 情况 。 当 我 们 看 到 将 要 下 降 到 一 个 容量 为 1 的 间 阶 
时 ,我 们 把 这 个 间 孙 放 大 :或 者 是 通过 从 相 邻 间隙 ( 如 果 容量 不 为 1) 借 来 的 方式 ,或 者 通过 降 
低 该 间隙 与 邻 间隙 分 开 的 节点 的 高 度 的 方式 。 由 于 这 两 个 都 是 容量 为 1 的 间隙, 因此 结果 变 
成 容量 为 3 的 间隙 。 由 于 有 几 种 情形 要 处 理 ,因此 程序 比 我 们 的 描述 稍微 复杂 一 些 。 

整个 过 程 是 如 何 实现 的 呢 ? 在 描述 了 所 有 的 细节 之 后 ,我 们 将 看 到 程序 代码 的 量 实际 上 
是 相当 小 的 。 

第 一 个 重要 的 细节 是 , 当 我 们 将 一 个 高 h 的 节点 提升 到 高 h +1 的 时 候 , 我 们 不 能 花费 时 
间 OCA) RETE h 个 指针 拷贝 到 一 个 新 数组 。 否 则 ,插入 的 时 间 界 就 要 成 为 O(log NO To 
一 种 合理 的 方法 是 用 一 个 链表 表示 高 度 为 h 的 节点 中 的 h 个 前 向 指针 。 由 于 我 们 是 沿 着 各 
层 向 下 行进 ,因此 一 个 节点 的 链表 是 以 第 层 前 向 指针 开始 并 以 第 1 层 前 向 指针 结束 。 

第 二 是 优化 更 复杂 而 且 可 能 占用 一 些 空间 。 我 们 不 是 把 节点 作为 一 项 和 前 向 指针 的 链表 
来 存储 ,而 是 存储 前 向 指针 和 前 向 项 对 的 链表 。 理解 其 含义 的 最 容易 的 方法 是 参考 图 12-22， 
它 是 图 12-21 的 另 一 种 表示 方法 。 我 们 将 使 用 术语 抽象 表示 或 逻辑 表示 来 描述 图 12-21 并 把 
图 12-22 当 作 是 (实际 的 ) 实 现 方法 。 





























图 12-22 图 12-21 中 1-2-3 确定 性 跳跃 表 的 链表 实现 


首先 注意 ,除了 尾 节点 被 删除 外 ,抽象 表示 和 实际 实现 二 者 的 地 平 线 (skyline 一 一 即 我 们 
从 左 到 右 扫 描 的 高 度 ) 是 一 样 的 。 在 我 们 的 实现 中 ,每 一 个 节点 都 留 有 使 我 们 下 降 一 层 的 指 
针 , 指 向 同 层 上 的 下 一 个 节点 的 指针 以 及 逻辑 上 存储 在 下 一 项 中 的 项 (如 原始 抽象 描述 所 述 )。 

注意 ,有 些 项 的 出 现 是 多 于 一 次 的 :例如 ,25 出 现在 三 个 地 方 。 事实 上 ,如 果 一 个 节点 在 
抽象 表示 中 的 高 度 为 h ,那么 它 的 项 在 实际 实现 中 就 会 出 现在 h 个 地 方 。 有 一 些 重要 的 结论 
和 惊人 的 结果 我 们 将 在 给 出 实现 方法 后 进行 解释 。 

基本 节点 由 一 个 关键 字 和 两 个 指针 组 成 。 为 了 使 编程 更 快 更 简单 ,我 们 使 用 了 一 个 尾 节 
点 ;如 果 不 能 够 或 不 希望 赋值 2, 那么 就 必须 用 到 别 的 技巧。 我 们 对 头 节点 和 底层 节点 都 有 一 
个 标记 以 代替 NULL 指针 。 声 明和 初始 化 的 例 程 如 图 12-23 所 示 。 

查找 函数 与 随机 化 跳跃 表 的 相同 。 图 12-24 指出 ,如 果 我 们 得 不 到 匹配 的 项 ,那么 或 者 向 
下 进行 ,或 者 向 右 进行 ,这 依赖 于 比较 的 结果 。 如 图 12-25 所 示 , 插 入 操作 由 于 标记 的 引入 而 
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大 大 地 得 到 简化 。 利 用 某 些 烦琐 的 指针 跟踪 我 们 可 以 看 到 ,如 果 不 得 不 对 每 一 个 指针 是 否 是 
NULL 进行 测试 ,那么 我 们 就 会 很 容易 地 将 程序 代码 增加 三 倍 。 

12-25 指出 ,确定 性 跳跃 表 插 入 过 程 的 程序 多 多 少 少 短 一 些 , 考 虑 的 情况 比 红 黑 树 少 得 
多 。 我 们 所 付出 的 代价 似乎 是 空间 :在 最 坏 情况 下 我 们 有 2N 个 节点 ,每 个 节点 包含 两 个 指针 
和 一 项 。 对 于 红 黑 树 ,我 们 有 N 个 节点 ,每 个 节点 包含 两 个 指针 ,一 项 以 及 一 个 颜色 位 (bit)。 
因此 ,我 们 可 能 要 用 到 两 倍 多 的 空间 。 可 是 ,事情 没有 粳 到 这 一 步 。 首 先 ,经 验 指出 ,确定 性 跳 
跃 表 平均 使 用 大 约 1.57N 个 节点 。 其 次 ,在 某 些 情况 下 ,确定 性 跳跃 表 实 际 使 用 的 空间 少 于 
红 黑 树 。 

这 里 有 一 个 实际 的 例子 。 在 32 位 机 上 ,指针 和 整数 是 4 个 字 节 。 对 于 某 些 系统 ,包括 某 
些 版 本 的 UNIX, 内 存 是 按 块 (chunk) 来 配置 的 ,它们 通常 是 2 的 寡 , 但 存储 管理 程序 使 用 4 个 
字 节 的 块 。 于 是 ,对 于 12 个 字 节 的 请 求 将 得 到 一 个 16 字 节 块 :12 个 字 节 由 用 户 使 用 而 4 个 
字 节 作为 系统 开销 。 但 是 ,对 于 13 个 字 节 的 需求 则 必须 提供 一 个 32 字 节 块 。 因 此 ,在 这 种 情 
况 下 ,确定 性 跳跃 表 每 个 节点 使 用 16 个 字 节 ,而 平均 有 1.57N 个 节点 , 故 总 数 一 般 约 为 25N 
个 字 节 。 可 是 , 红 黑 树 却 使 用 32N 个 字 节 ! 这 说 明 在 某 些 机 器 上 一 个 附加 位 (bit) 是 非常 昂贵 
的 ;这 是 自 组 织 结构 的 吸引 力 之 一 。 





struct SkipNode 
{ 


ElementType Element; 
SkipList Right; 
SkipList ^ Down; 
h 


static Position Bottom = NULL; /* Needs initialization */ 
static Position Tail = NULL; /* Needs initialization */ 


/* Initialization procedure */ 


Skiptist 
Initialize( void ) 


SkipList L; 
if( Bottom == NULL ) 
{ 


Bottom = malloc( sizeof( struct SkipNode ) ); 
if( Bottom == NULL ) 

FatalError( "Out of space!!!" ); 
Bottom-»Right = Bottom-»Down = Bottom; 


Tail = malloc( sizeof( struct SkipNode ) ); 
ifC Tail == NULL ) 
FatalError( "Out of space!!!" ); 
Tail->Element = Infinity; 
Tail->Right = Tail; 
) 


/* Create the header node */ 
L = malloc( sizeof( struct SkipNode ) ); 
ifCL == NULL ) 

FatalError( "Out of space!!!" ); 
L-»Element = Infinity; 
L-»Right = Tail; 
L-»Down = Bottom; 


return L; 
$ 











图 12-23 确定 性 跳 路 表 :类 型 和 初始 化 ( 均 不 在 头 文件 中 ) 
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/* Return position of node containing Item, */ 
/* or Bottom if not found */ 


Position 
Find( FlementType Item, SkipList L ) 
1 

Position Current 





Bottom->Element = Iter 
while( Item != Current->Element ) 
if( Item < Current->Element ) 
Current = Current->Down; 

else 
Current = Current->Right; 





return Current; 











图 12-24 ”确定 性 跳跃 表 :Find 例 程 





{ 





SkipList 
Insert( ElementType Item, SkipList L ) 


Position Current = 
Position NewNode; 








Bottom->Element = Item; 
while( Current != Bottom ) 
1 
while( Item > Current->Element ) 
Current = Current-»Right; 


/* If gap size is 3 or at bottom level */ 

/* and must insert, then promote the middle element */ 

if( Current-»Element > 
Current-»Down-»Right-»Right-»Element ) 

{ 


NewNode = malloc( sizeof( struct SkipNode ) ): 
if( NewNode == NULL ) 

FatalError( "Out of space!!!" ); 
NewNode->Right = Current-»Righ 
NewNode->Down = Current->Down->Right->Right; 
Current->Right = NewNode; 
NewNode-»tlement = Current-»tlement; 
Current-»Element = Current-»Down-»Right-»Element; 





) 
else 
Current = Current->Down; 


/* Raise height of DSL if necessary */ 
ifC L-»Right != Tail ) 
V Newwode = malloc sizeof( struct SkipNode ) 2 
if( NewNode == NULL ) 
FatalError( "Out of space!! 
NewNode-»Down = 
NewNode->Right = Tail; 
NewNode->Element = Infinity; 
L = NewNode; 





X 





H 


return L; 








图 12-25 确定 性 跳跃 表 :插入 过 程 
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确定 性 跳跃 表 的 性 能 似乎 比 红 黑 树 要 强 。 当 寻找 插入 时 间 的 改进 时 ,下 面 这 行 代码 : 
if(Current ->Element >Current ->Down — Right — Right — Element) 


fg f. , Pn RFR TE — AEE BT — PIER — AL h , AAI FE OU Vi fs] RT VA aE 
行 ,而 不 用 再 通过 两 个 Right 指针 。 图 12-26 表示 的 是 所 得 到 的 结构 ,这 个 结构 很 像 第 4 章 讨 
论 的 B 树 。 我 们 称 之 为 1-2-3 确定 性 跳跃 表 的 水 平 数 组 实现 (horizontal array implementa- 
tion)。 正 如 存在 链表 形式 和 水 平 数组 形式 的 高 阶 B 树 一 样 , 我 们 也 有 这 两 种 形式 的 高 阶 确定 
性 跳跃 表 。 哪 种 方法 最 好 还 有 待 研究 ,可 能 紧密 依赖 于 特定 的 系统 和 应 用 。 


EH 
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图 12-26 [812-22 的 水 平 数 组 实现 
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12.4 ”AA- 树 


因为 大 量 可 能 的 旋转 , 红 黑 树 的 编程 相当 复杂 ,特别 是 删除 操作 。 确 定性 跳跃 表 的 编程 虽 
在 一 定 程度 上 要 少 一 些 ,但 仍然 是 相当 复杂 的 ,这 由 所 需 的 三 个 标记 可 以 看 出 。 当 然 ,确定 性 
跳 聊 表 中 的 删除 是 一 项 非 平凡 的 工作 。 在 这 一 节 , 我 们 描述 二 又 BM (binary B-tree) 一 种 简单 
但 却 颇具 竞争 力 的 实现 方法 ,这 种 树 叫做 BB- 树 。BB- 树 是 带 有 一 个 附加 条 件 的 红 黑 树 :一 个 
节点 最 多 可 以 有 一 个 红 儿 子 。 为 使 编程 容易 ,我 们 采纳 一 些 法 则 。 

1. 首先 ,我 们 加 入 只 有 右 儿子 可 以 是 红 的 的 条 件 , 这 就 消除 了 约 一 半 的 可 能 重新 构建 的 

情形 。 它 也 消除 在 删除 算法 中 一 个 恼人 的 情形 :如 果 一 个 内 部 节点 只 有 一 个 儿子 , 那 
么 这 个 儿子 一 定 是 右 儿 子 ( 它 刚好 是 红色 的 ) ,因为 黑色 左 儿子 将 会 违反 红 黑 树 的 条 件 
4。 因 此 ,我 们 总 可 以 用 一 个 内 部 节点 的 右 子 树 中 的 最 小 节点 代替 该 内 部 节点 。 

2. 我 们 递归 地 编写 这 些 过 程 。 

3. 我 们 把 信息 存在 一 个 短 整 (short) 型 数 (例如 8 个 比特 ) 中 ,而 不 是 把 一 个 颜色 位 (bit) 和 

每 个 节点 一 起 存储 。 这 个 信息 就 是 节点 的 层次 (level)。 节 点 的 层次 
， 是 1, 若 该 节点 是 树叶 。 
* 是 它 的 父 节 点 的 层次 , 若 该 节点 是 红 的 。 


O 事实 上 ,更 “明显 "的 测试 
Current -> Elenent = = Current -> Down — Right ->Right — Right — Element 


对 某 些 系统 多 花费 20% 的 时 间 ! 
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。 比 它 的 父 节点 的 层次 少 1, 若 该 节点 是 黑 的 。 

如 此 得 到 的 结果 是 一 棵 AA- 树 。 图 12-27 显示 用 于 AA- 树 的 类 型 声明 。 我 们 再 一 次 使 用 
标记 来 代表 NULL。 

如 果 我 们 将 AA 结构 要 求 从 颜色 转换 成 层次 ,那么 我 们 看 到 , 左 儿子 必然 比 它 的 父 节 点 恰 
好 低 一 个 层次 ,而 右 儿子 可 能 比 父 节点 低 0 或 1 个 层次 (但 不 会 再 多 )。 

水 平 链接 (horizontal link) 是 一 个 节点 与 同 层次 上 的 儿子 之 间 的 连接 。 这 种 结构 需求 使 得 
水 平 链 接 是 向 右 的 指针 ,并 且 不 能 有 两 个 连续 的 水 平 链接 。 图 12-28 显示 一 棵 AA- 树 的 示例 。 
查找 使 用 通常 的 算法 完成 。 一 个 新 项 的 插入 总 是 在 底层 进行 。 不 过 ,有 两 个 问题 产生 :2 的 插 
和 将 产生 一 个 左 水 平 链接 ,而 45 的 插入 将 产生 两 个 连续 的 右 水 平 链接 。 





/* Returned for failures */ 
Position NullNode = NULL; /* Needs more initialization */ 


struct AANode 
{ 


ElementType Element; 
AATree Left; 
AATree Right; 
int Level; 


k 


AATree 
Initialize( void ) 


if( NullNode == NULL ) 
{ 
NulINode = malloc( sizeof( struct AANode ) ); 
ifC NuTINode == NULL ) 
FatalError( “Out of space!!!" ); 
NullNode-»Left = NullNode-»Right = Nu7 Node; 
NulINode-»Level = 0; 


! 
return NullNode; 
! 
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图 12-28 插入 10,85,15,70.20.60,30.50,65.80.90.40,5,55,35 得 到 的 一 棵 AA- 树 


在 这 两 种 情况 下 一 次 单 旋转 都 可 以 使 问题 得 到 解决 :通过 右 旋转 消除 左 水 平 链接 ,通过 左 
旋转 消除 连续 的 右 水 平 链接 。 这 些 过 程 分 别 叫做 Skew 和 Split。 图 12-29 是 这 些 原 语 的 代 
码 。 一 次 Skew 除去 一 个 左 水 平 链接 ,但 可 能 会 创建 连续 的 右 水 平 链接 ,因此 我 们 首先 执行 
Skew ,然后 再 Split。 在 一 次 Split 之 后 ,中 间 节 点 R 的 层次 增加 。 由 于 新 建 一 个 左 水 平 节点 或 
连续 的 右 水 平 节点 ,因而 引起 X 的 原来 父 节 点 的 一 些 问题 ,这 两 个 问题 都 可 以 通过 上 滤 
Skew/Split 的 方法 解决 。 如 果 我 们 使 用 递归 算法 ,那么 这 可 以 自动 地 完成 。 图 12-30 描述 了 
这 两 个 过 程 。 


只 比 非 平衡 实现 多 两 行 ,如 图 12-36 所 示 。 


Inn 
将 45 插入 到 图 12-28 中 的 AA 树 的 动作 在 图 12-31 到 图 12-35 中 表示 。 此 时 的 插入 过 程 | 


477 
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当然 ,删除 操作 是 更 复杂 的 ,不 过 ,由 于 我 们 除去 了 许多 的 特殊 情况 ,程序 代码 实际 上 是 相当 
合理 的 。 首 先 ,我 们 记得 ,如 果 一 个 节点 不 是 树叶 ,那么 它 必然 有 一 个 右 儿 子 ,这 意味 着 , 当 删 除 
一 个 节点 的 时 候 , 我 们 总 可 以 用 其 右 子 树 上 最 小 的 儿子 代替 这 个 节点 ,这 保证 它 是 在 第 一 层 上 。 





/* If T's left child is on the same level as T, */ 
/* perform a rotation */ 


AATree 
Skew( AATree T ) 


if( T->Left->Level == T->Level ) 


T = SingleRotatewithLeft( T ); 
return T; 


/* If T's rightmost grandchild is on the same level, */ 
/* rotate right child up */ 


AATree 
Split( AATree T ) 


if( T-»Right-»Right-»Level == T-»Level ) 
1 


T = SingleRotatewithRight( T ); 
T->Level++; 


D 
return T; 
} 











图 12-29 AA- 树 :Skew 过 程 和 Split 过 程 


Or) 二 一 0 一 xD) 
(Right Rotation) AN AN ZN 
(0—$9 = (G) 
2 — A 
cam 全 ZEN 


图 12-30 Skew 和 Split, TER R 的 层次 在 一 次 Split 中 增加 





图 12-32 在 35 处 进行 Split 之 后 
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图 12-35. 在 Skew70 和 Split30 后 最 后 得 到 的 树 





AATree 
Insert( ElementType Item, AATree T ) 


if( T == NullNode ) 
{ 


/* Create and return a one-node tree */ 
T = malloc( sizeof( struct AANode ) ); 
IfCT == NULL ) 

FatalError( "Out of space!!!" ); 
else 


T->Element = Item; T->Level = 1; 
T->Left = T->Right = NullNode; 


} 
return T; 
} 
else 
if( Item < T->Element ) 
T->Left = Insert( Item, T->Left ); 
else 
if( Item > T->Element ) 
T->Right = Insert( Item, T->Right ); 


/* Otherwise it's a duplicate; do nothing */ 
T = Skew( T ); 


T = Split TO: 
return T; 











181236 AA- 树 :插入 过 程 


为 了 有 助 于 解决 问题 ,我 们 使 用 了 两 个 static 型 的 局 部 变量 DeletePtr 和 LastPtr。 因 为 
Remove 是 递归 过 程 ,所 以 这 两 个 变量 必须 是 static 型 。 当 我 们 遍历 一 个 右 指针 时 ,我 们 调整 
DeletePtr, 因 为 我 们 递归 地 调用 Remove 直到 到 达 底 部 为 止 (在 沿 树 下 行 的 过 程 中 我 们 不 对 相 
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等 进行 测试 ) ,这 保证 如 果 要 删除 的 项 在 树 上 ,那么 DeletePtr 将 指向 包含 它 的 节点 .SLastPtr 
指向 查找 终止 处 的 树叶 。 因 为 我 们 只 有 到 达 底部 才 停止 ,所 以 如 果 该 项 在 树 上 ,那么 LastPtr 
将 指向 层次 为 1 的 包含 蔡 换 值 的 节点 , 且 必 然 从 该 树 中 删除 。 

当 到 达 树 的 底部 ,我 们 执行 第 二 步 ,将 第 1 层 节点 值 拷贝 到 内 部 节点 上 然后 调用 free 删除 
层次 1 上 的 节点 。 

为 了 查看 是 否 那些 非 叶 节 点 的 层次 被 A (3) 
一 次 递归 调用 所 破坏 ,需要 检查 这 些 非 叶 
节点 。 令 T 为 当前 节点 。 如 果 删 除 将 了 C Oe OSO) 
PARA ONT Ie E 12-37 当 1 被 删除 时 ,引入 水 平 左 链接 .所 有 节点 的 

可 能 受 影响 ,但 为 简 层次 变 成 1。 通 过 调用 三 次 Skew 使 得 右 指 向 的 链接 

单 起 见 我 们 不 跟踪 它 ) 降 低 到 比 T 的 层次 JE. AAT Sai 除去 连续 的 水 平 链接 
低 2, 那 么 了 的 层次 也 需要 降低 。 此 外 ,如 
果 下 有 一 个 右 红 儿 子 ,那么 工 的 右 儿子 也 必须 将 它 的 层次 降低 。 此 时 ,我 们 可 能 在 同一 层次 
上 有 6 个 节点 :T, 的 右 红 儿 子 R,R 的 两 个 儿子 ,以 及 这 些 儿子 的 右 红 儿 子 。 图 12-37 表达 
了 最 简单 的 可 能 情况 。 

在 节点 1 删除 以 后 ,节点 2 从 而 节点 5 变 成 了 层次 为 1 的 节点 。 首 先 ,我 们 必须 调整 在 节 
点 5 和 3 之 间 引入 的 左 水 平 链接 。 这 基本 上 需要 两 次 旋转 (一 次 是 在 节点 5 和 3 之 间 , 而 后 是 
在 节点 5 和 4 之 间 )。 在 这 种 情况 下 不 涉及 当前 节点 了 。 另 一 方面 ,如 果 删 除 来 自 右边 ,那么 
的 左 节点 可 能 忽然 之 间 就 可 能 变 成 水 平 的 了 ;这 也 需要 一 次 类 似 的 双 旋转 (在 开始 )。 为 
了 避免 测试 所 有 这 些 情形 ,我 们 只 要 调用 三 次 Skew 即 可 。 一 旦 调用 完成 , 则 再 调用 两 次 Split 
就 足以 重新 安排 这 些 水 平 的 边 。 整 个 删除 例 程 如 图 12-38 所 示 。 从 各 方面 来 看 ,这 对 编程 来 
说 都 是 相对 简单 的 数据 结构 。 





AATree 
Remove( ElementType Item, AATree T ) 


static Position DeletePtr, LastPtr; 


if( T I= NuTINode ) 
{ 
/* Step 1: Search down tree */ 
^ set LastPtr and DeletePtr */ 
LastPtr = T; 
if( Item < T->€lement ) 
T-»Left = Remove( Item, T-»Left ); 
else 
{ 
DeletePtr = T; 
T-»Right = Remove( Item, T->Right ); 
Ü 








1238 ”AA- 树 :删除 过 程 


后 ”这 个 技巧 可 以 用 于 Find 过 程 ,用 每 个 节点 的 两 路 比较 代 震 在 每 个 节点 所 做 的 三 路 比较 ， 外 加 在 底部 进行 的 相等 性 
测试 。 
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/* Step 2: If at the bottom of the tree and */ 
A item is present, we remove it */ 
if( T == LastPtr ) 


if( DeletePtr !- NullNode && 
Item == DeletePtr->Element ) 


DeletePtr->Element = T->Element; 
DeletePtr = NullNode; 

T = TRight; 

free( LastPtr ); 


/* Step 3: Otherwise, we are not at the bottom; */ 
I rebalance */ 


if( T-»Left-»Level < T->Level - 1 || 
T->Right->Level < T-»Level - 1) 


if( T->Right->Level > --T->Level ) 
T->Right->Level = T-»Level; 

T = Skew( T ); 
T-»Right = Skew( T-»Right ); 
T-»Right-»Right = Skew( T->Right->Right ); 
T = Split( T); 
T->Right = Split( T->Right ); 

) 


} 
return T; 
) 











图 12-38( 续 ) AA- 树 :删除 过 程 


12.5 treap 树 


最 后 一 种 二 又 查找 树 可 能 是 最 简单 的 一 种 ,叫做 treap 树 。 它 像 跳跃 表 一 样 使 用 随机 数 并 
且 对 任意 的 输入 都 能 给 出 O(logN ) 的 期 望 时 间 的 性 能 。 查 找 时 间 等 同 于 非 平衡 二 又 查找 树 
(从 而 比 平 衡 查 找 树 要 慢 ) ,而 插 人 时间 只 比 递归 非 平衡 二 又 查找 树 的 实现 方法 稍 慢 。 虽 然 删 
除 操作 要 慢 得 多 ,但 仍然 是 O(logN ) 期 望 时 间 。 

treap 树 是 如 此 地 简单 ,以 至 我 们 不 用 画图 就 可 描述 它 。 树 中 的 每 个 节点 存储 一 项 ,一 个 
左 和 右 指针 ,以 及 一 个 优先 级 ,该 优先 级 是 建立 节点 时 自动 指定 的 。 一 个 treap 树 就 是 一 棵 二 
又 查找 树 , 但 其 节点 优先 级 满足 堆 序 性 质 :任意 节点 的 优先 级 必须 至 少 和 它 父亲 的 优先 级 一 
样 大 。 

其 每 一 项 都 有 不 同 优先 级 的 不 同 项 的 集合 只 能 由 一 个 treap 树 表示 。 这 很 容易 由 归纳 法 
推导 ,因为 具有 最 低 优先 级 的 节点 必然 是 根 。 因 此 , 树 是 根据 优先 级 的 N! 种 可 能 的 排列 而 
不 是 根据 项 的 N! 种 排序 形成 的 。 类 型 声明 很 简单 ,只 要 求 Priority 域 的 加 法 。 标记 NullN- 
ode 的 优先 级 为 co ,如 图 12-39 所 示 。 

到 treap 树 的 插入 操作 也 简单 :在 一 项 作为 树叶 加 入 之 后 ,我们 将 它 沿 着 该 reap 树 向 上 旋 
转 直 到 它 的 优先 级 满足 堆 序 为 止 。 可 以 证 明 旋转 的 期 望 次 数 小 于 2. 在 要 被 删除 的 项 找到 以 
后 ,通过 把 它 的 优先 级 增加 到 co 并 沿 着 低 优 先 级 诸 儿子 的 路 径 向 下 旋转 而 可 将 其 删除 。 一 旦 
它 是 树叶 ,就 可 以 把 它 除去 。 图 12-40 和 图 12-41 中 的 例 程 利用 递归 实现 这 些 方法 。 一 种 非 
递归 的 实现 方法 留 给 读者 去 练习 (练习 12.17)。 对 于 删除 ,注意 当 节点 逻辑 上 是 树叶 时 , 它 仍 
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然 有 NullNode 作为 它 的 左 儿子 和 右 儿 子 。 因 此 , 它 与 右 儿子 旋转 ,在 旋转 后 ,了 为 NullNode, 
而 右 儿子 可 以 被 释放 。 还 要 注意 我 们 的 实现 是 假设 没有 重复 元 ;如 果 这 个 假设 不 成 立 ,那么 
Remove 可 能 失败 。( 为 什么 ?) 





Treap 
Initialize( void ) 


ifC NullNode == NULL ) 
{ 


NullNode = malloc( sizeof( struct TreapNode ) ); 
if( NuTINode == NULL ) 
FatalError( "Out of space!!!" ); 
NullNode-»Left = NullNode-»Right = NullNode; 
NuTINode-»Priority = Infinity; 





} 
return NullNode; 





图 12-39 treap 树 的 初始 化 





Treap 
Insert( ElementType Item, Treap T ) 


if( T == NuTINode ) 
{ 
/* Create and return a one-node tree */ 
T = malloc( sizeof( struct TreapNode ) ); 
if(T == NULL ) 
FatalError( "Out of space!!!" ); 
else 
$ 
T->Element = Item; T->Priority = Randon( ); 
T->Left = T->Right = NullNode; 
! 
} 
else 
if( Item < T->Element ) 


T->Left = Insert( Item, T->Left ); 
if( T->Left->Priority < T-»Priority ) 
T = SingleRotateWithLeft( T ); 
) 


else 
if( Item > T->Element ) 
t 
T->Right = Insert( Item, T->Right i 
if( T->Right->Priority < T-»Priority ) 
T = SingleRotatewi thRight( T ); 
} 


/* Otherwise it's a duplicate; do nothing */ 


return T; 











图 12-40 treaps: 插 入 例 程 


treap 树 特别 容易 实现 是 因为 我 们 绝对 不 必 担心 调整 优先 级 域 。 平衡 树 处 理 方法 的 困难 
之 一 是 追查 由 于 未 能 更 新 一 次 操作 过 程 中 的 信息 而 导致 的 错误 。 从 那些 合理 的 插入 和 删除 程 
序 包 中 的 所 有 程序 行 来 看 ,treap 树 ,特别 是 以 非 递归 方法 的 实现 ,似乎 才 是 不 费力 的 赢家 。 
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Treap 
Remove( ElementType Item, Treap T ) 


irg T t= NulINode ) 
if( Item < T->Elenent ) | 
T->Left = Remove( Item, T->Left ); 
else 
if( Item > T->Element ) 
T->Right = Remove( Item, T->Right ); 
else 
t 
/* Match found */ 
if( T->Left->Priority < T-»Right-»Priority ) 
T = SingleRotateWithLeft( T ); 
else 
T = SingleRotatewithRight( T ); 


f(T t= NullNode ) — /* Continue on down */ 
T = Remove( Item, T ): 
else 
i 
/* At a leaf */ 
free( T->Left ); 
T->Left = NullNode; 
j 
! 
D 
return T; 











图 12-41 “treaps: 删 除 过 程 


12.6 k-d 树 


设 一 广告 公司 拥有 一 个 数据 库 并 需要 为 某 些 客户 生成 邮寄 标签 。 典 型 的 要 求 可 能 是 需要 
散发 邮件 给 那些 年 龄 在 34 到 49 之 间 且 年 收入 在 100 000 美元 和 150 000 美元 之 间 的 人 们 。 
这 个 问题 叫做 二 维 范围 查询 (two-dimensional range query)。 在 一 维 情况 下 ,该 问题 可 以 借助 
于 简单 的 递归 算法 通过 遍历 预先 构造 的 二 叉 查 找 树 以 OCM + logN) 平 均 时 间 解 决 。 这 里 ,M 
是 由 查询 所 报告 的 匹配 的 个 数 。 我 们 希望 对 二 维 或 更 高 维 的 情况 得 到 类 似 的 界 。 

二 维 查找 树 具有 简单 的 性 质 : 在 奇数 层 上 的 分 支 按照 第 一 个 关键 字 进 行 , 而 在 偶数 层 上 的 
分 支 按照 第 二 个 关键 字 进 行 。 根 是 任意 选取 的 奇数 层 , 图 12-42 表示 一 棵 2-d 树 。 向 一 棵 2-d 
树 进行 的 插入 操作 是 向 一 棵 二 又 查找 树 插入 操作 的 平凡 的 扩展 :在 沿 树 下 行 时 ,我 们 需要 保留 
当前 的 层 。 为 保持 程序 代码 简单 ,我 们 假设 基本 的 项 是 两 个 元 素 的 数组 。 此 时 我 们 需要 把 层 
限制 在 0 和 1 之 间 。 图 12-43 显示 的 是 执行 插入 的 程序 。 在 这 一 节 我 们 使 用 递归 ,用 于 实践 
中 的 非 递归 实现 方法 是 简单 的 ,我 们 把 它 留 作 练习 12.23。 特别 是 由 于 若干 项 在 一 个 域 中 可 
能 相同 ,因此 困难 之 一 是 重复 元 。 我 们 的 程序 允许 重复 元 , 且 总 是 把 它们 放 在 右 分 支 上 ,显然 ， 
如 果 有 太 多 的 重复 元 ,那么 这 可 能 就 是 一 个 问题 。 

稍 加 思索 便 可 确信 ,一 棵 随机 构造 的 2-4 树 与 一 棵 随机 二 叉 查 找 树 具有 相同 的 结构 性 质 : 
高 度 平均 为 O(logN) ,但 最 坏 情形 则 是 O(N)。 
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图 12-42 2-d 树 示例 





Static KdTree 
Recursivelnsert( ItemType Item, KdTree T, int Level ) 


ifCT == NULL ) 
1 
T = malloc( sizeof( struct KdNode ) ); 
ifCT == NULL ) 
Fatal€rror( "Out of space!!!" ); 
T-»Left = T->Right = NULL; 
T-»Data[ 0 ] = Item 0 ]; 
T->Data[ 1 ] = Iten[ 12; 
) 


else 
ifC Item[ Level ] « T-»Data[ Level ) ) 
T->Left = RecursiveInsert( Item, T-»Left, !Level ); 
else 
T->Right = Recursivelnsert( Item, T-»Right, !Level ): 
return T; 
) 
KdTree 


Insert( ItemType Item, KdTree T ) 
( 


$ 


return RecursiveInsert( Item, T, 0 ): 











图 12-43 向 2-d 树 进行 的 插 人 


不 像 二 叉 查 找 树 有 精巧 的 O(logN) 最 坏 情形 的 变种 存在 ,没有 已 知 的 方案 能 够 保证 一 棵 
平衡 的 2-d 树 。 问 题 在 于 ,这 样 一 种 方案 很 可 能 基于 树 的 旋转 ,而 树 旋转 在 2-d 树 中 是 行 不 通 
的 。 我 们 能 够 做 的 最 好 的 办 法 是 通过 重新 构造 子 树 来 定期 地 对 树 进行 平衡 ,具体 描述 可 见 练 
习 。 类 似 地 ,也 不 存在 超越 明显 的 懒惰 删除 方法 的 删除 算法 。 如 果 在 需要 处 理 查 询 之 前 所 有 
的 项 都 已 得 到 ,那么 我 们 就 能 够 以 O( Nog ) 时 间 构 造 一 棵 理想 平衡 2-d 树 ,这 就 是 练习 
12.21c. 

有 几 种 查询 可 以 在 2-d 树 上 进行 。 我 们 可 以 要 求 精确 的 匹配 ,或 者 基于 两 个 关键 字 中 一 
个 关键 字 的 匹配 ;后 者 称 为 部 分 匹配 查询 (partial match query)。 这 两 种 都 是 ( 正 交 ) 范 转 查询 
(range query) 的 特殊 情形 。 

正 交 范围 查询 给 出 其 第 一 个 关键 字 在 一 个 特殊 的 值 集合 之 间 且 第 二 个 关键 字 在 另 一 个 特 
殊 的 值 集合 之 间 的 所 有 的 项 。 这 正 是 我 们 在 本 节 介绍 中 所 描述 的 问题 。 如 图 12-44 所 示 , 范 
围 查 询 通过 一 次 递归 的 树 遍历 容易 解 出 。 通过 在 递归 调用 之 前 进行 测试 ,我 们 可 以 避免 对 所 
有 节点 的 不 必要 的 访问 。 
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/* Print items satisfying */ 
/* Low[ O ] <= Iten[ 0 ] <= High 0 ] and */ 
/* Low[ 1] <= Iten[ 1] <= High[ 1] */ 


static void 
RecPrintRange( ItemType Low, ItemType High, 
KdTree T, int Level ) 
{ 
ifCT t= NULL ) 


if( Low[ O ] <= T->Data[ 0 ] && 
T-»Data[ 0 ] <= High[ 0 ] && 
Low[ 1] <= T-»Data[ 1 ] & 
T-Data[ 1] <= High[ 1] ) 
PrintItenC T-»Data ); 


3fC Low[ Level J <= T-»Data[ Level ) ) 
RecPrintRange( Low, High, T->Left, !Level ); 
if( High[ Level ] >= T->Data[ Level ] ) 
RecPrintRange( Low, High, T->Right, !Level ); 
) 


上 


void 
PrintRange( ItemType Low, ItemType High, KdTree T ) 
i 





RecPrintRange( Low, High, T, 0); 
$ 








图 12-44 2-d 树 : 范 围 查找 


为 找到 特定 的 项 ,我 们 可 以 令 Low Al High 等 于 我 们 要 查找 的 项 。 为 了 执行 一 次 部 分 匹 
配 查询 ,我 们 让 在 这 次 匹配 中 涉及 不 到 的 关键 字 的 范围 为 - "到 co。 其 余 范 围 设 置 为 低 点 和 
高 点 等 于 匹配 中 所 涉及 的 关键 字 的 值 。 

{E 2-d 树 中 插入 或 精确 匹配 查找 花费 的 时 间 平 均 正比 于 树 的 深度 , 即 O(logN ) ,而 在 最 
坏 情形 下 为 O(N)。 一 次 范围 查找 的 运行 时 间 依 赖 于 如 何 将 树 平衡 ,是 否 要 求 部 分 匹配 ,以 
及 实际 上 有 多 少 项 被 找到 。 我 们 提出 三 个 结果 ,它们 已 经 得 到 证 明 。 

对 于 理想 平衡 树 ,一 次 范围 查询 要 报告 M 次 匹配 可 能 花费 最 坏 情形 时 间 O(M + VN)。 
在 任 一 节点 ,我 们 可 能 必须 访问 4 个 孙子 中 的 两 个 ,于 是 成 立方 程 TUN) = 2T(NA4) + 
OCD ,然而 在 实践 中 ,这 些 查找 趋向 于 非常 有 效 ,甚至 最 坏 情形 都 不 是 那么 差 , 因 为 对 于 典型 
的 N, TEV NA logN 之 间 的 差 被 隐藏 于 大 O 记号 中 的 更 小 的 常数 所 补偿 。 

对 于 随机 构造 的 树 ,部 分 匹配 查询 的 平均 运行 时 间 为 O(M + NO XP a- (73 
JT) /2( 见 下 面 )。 最 近 的 多 少 令 人 震惊 的 结果 是 它 基 本 上 描述 了 随机 2-d 树 的 一 次 范围 查 
找 的 平均 运行 时 间 。 

对 于 维 的 情况 ,同样 的 算法 仍然 成 立 , 我 们 通过 每 层 上 的 那些 关键 字 进 行 循环 。 不 过 ， 
在 实践 中 平衡 开始 变 得 越 来 越 差 ,因为 重复 元 和 非 随机 输入 的 影响 一 般 变 得 更 为 明显 。 我 们 
把 编程 的 细节 留 给 读者 作为 练习 而 只 叙述 解析 结果 :对 于 理想 平衡 树 ,一 次 范围 查询 的 最 坏 情 
形 运 行 时 间 为 O(M + ANI-!4)。 在 随机 构造 的 人 d 树 中 ,涉及 大 个 关键 字 中 的 p 个 关键 字 
的 部 分 匹配 查询 花费 OCM + N°) ,其 中 a 是 方程 

(2+a)P(l+a)t ^ =2* 
(惟一 ) 的 正 根 。 对 各 种 p Mk o 的 计算 留 作 练习 ,k=2 和 p=1 的 值 反映 在 上 面 对 于 随机 
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2-d 树 的 部 分 匹配 所 叙述 的 结果 中 。 
虽然 有 几 种 新 奇 的 结构 支持 范围 查找 ,但 是 Ad 树 铠 怕 是 达到 可 接受 的 运行 时 间 的 最 简 
单 的 结构 了 。 


12.7 配对 堆 


我 们 考查 的 最 后 一 个 数据 结构 是 配对 堆 (pairing heap)。 配 对 堆 的 分 析 问 题 仍然 未 解决 ， 
不 过 , 当 需 要 DecreaseKey 操作 的 时 候 , 它 似乎 胜 过 其 他 的 堆 结构 。 它 的 高 效率 的 最 可 能 的 原 

















& 


因 是 它 的 简单 性 。 配 对 堆 被 表示 成 堆 序 树 。 图 12-45 显示 一 个 配对 堆 示 例 。 





图 12-45 示例 配对 堆 :抽象 表示 法 


配对 堆 的 具体 实现 用 到 第 4 章 中 所 讨论 的 左 儿 子 、 右 兄弟 表示 方法 。 我 们 将 看 到 ,De- 
creaseKey 操作 要 求 每 个 节点 包含 一 个 额外 的 指针 。 作 为 最 左 儿子 的 节点 含有 一 个 指向 其 父 
亲 的 指针 ;否则 这 个 节点 就 是 一 个 右 兄弟 并 含有 一 个 指向 它 的 左 兄弟 的 指针 。 我 们 将 把 这 个 
域 叫做 Prev 域 。 为 了 简洁 ,我 们 省 去 类 型 声明 ,这 些 类 型 声明 是 完全 直观 的 。 图 12-46 指出 
图 12-45 中 的 配对 堆 的 实际 表示 。 


—® 
oe 
Sdp doo ~ 
699) 
图 12-46 前 面 的 配对 堆 的 实际 表示 


我 们 以 概述 基本 操作 开始 。 为 了 合并 两 个 配对 堆 ,我 们 使 具有 较 大 根 的 堆 成 为 具有 较 小 
根 的 堆 的 左 儿 子 。 当 然 ,插入 是 合并 的 特殊 情形 。 为 执行 一 次 DecreaseKey ,我 们 降低 所 需要 
的 节点 的 值 。 因 为 对 于 所 有 的 节点 都 不 保存 父 指针 ,所 以 我 们 不 知道 这 是 否 会 破坏 堆 序 。 如 
此 ,我 们 将 调整 后 的 节点 从 它 的 父 节点 切除 ,通过 合并 所 得 到 的 两 个 堆 而 完成 DecreaseKey 操 
作 。 为 了 执行 DeleteMin, 我 们 将 根除 去 ,得 到 堆 的 一 个 集合 。 如 果 根 有 c 个 儿子 ,那么 对 合并 
过 程 进行 c - 1 次 调用 将 该 堆 重建 。 这 里 ,最 重要 的 细节 就 是 用 于 执行 合并 的 方法 以 及 如 何 应 
用 <c-1 次 合并 。 

图 1247. 显示 如 何 将 两 个 子 堆 合并 。 这 个 过 程 可 被 推广 到 允许 第 二 个 子 堆 有 兄弟 的 情 
形 。 我 们 早先 提 到 过 ,可 以 让 具有 较 大 根 的 子 堆 成 为 另 一 个 子 堆 的 最 左 的 儿子 。 程序 很 简单 ， 
如 图 12-48 所 示 。 注 意 ,我 们 有 几 个 例子 ,在 这 些 例子 中 ,在 给 指针 赋 对 Prev 域 之 前 要 测试 它 
是 否 是 NULL。 这 使 我 们 想到 ,有 一 个 NullNode 标记 或 许 是 有 用 的 , 它 习 惯 上 放 在 这 一 章 的 
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查找 树 的 实现 中 。 
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图 12-47. CompareAndLink 合并 两 个 子 堆 





/* This 
/* Links 


/* First 
/* First. 


Position 


1 
if(C 


else 


[ 


} 
else 


{ 





/* Returns the resulting tree */ 


CompareAndLink( Position First, Position Second ) 


if( First-»Element <= Second->Element ) 


is the basic operation to maintain order */ 
First and Second together to satisfy heap order */ 


is assumed NOT NULL */ 
-»NextSibling MUST be NULL on entry */ 


Second -- NULL ) 
return First; 


/* Attach Second as the leftmost child of First */ 

Second-»Prev - First; 

First-»NextSibling = Second-»NextSibling: 

if( First-»NextSibling != NULL ) 
First-»NextSibling-»Prev = First; 

Second-»NextSibling = First->LeftChi ld; 

if( Second-»NextSibling != NULL ) 
Second-»NextSibling-»Prev = Second; 

First-»LeftChild = Second; 

return First; 











/* Attach First as the leftmost child of Second */ 

Second-»Prev = First-»Prev; 

First-»Prev = Second: 

First-»NextSibling = Second-»LeftChild: 

if( First-»NextSibling !« NULL ) 
First->NextSibling->Prev = First; 

Second-»LeftChild = First; 

return Second; 








图 12-48 ”配对 堆 : 合 并 两 个 子 堆 的 例 程 


Insert 和 DecreaseKey 操作 是 抽象 描述 的 简单 实现 。DecreaseKey 需要 一 个 Position 对 象 。 
由 于 一 项 的 Position 在 它 第 一 次 插入 时 被 确定 (不 可 改变 ) ,因此 Insert 通过 第 三 个 参数 Loc 把 
Position 送 回 给 调用 者 ,Loc 由 参考 值 传递 。 程 序 如 图 12-49 所 示 。 如 果 新 的 关键 字 值 不 小 于 
老 的 ,那么 DecreaseKey 的 例 程 显示 警告 信息 。 在 这 种 情况 下 ,最 后 得 到 的 结构 可 能 不 遵守 堆 
序 。 基 本 的 DeleteMin 过 程 由 抽象 描述 直接 得 到 ,如 图 12-50 所 示 。 
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/* Insert Item into pairing heap H */ 
/* Return resulting pairing heap */ 

/* A pointer to the newly allocated node */ 

/* is passed back by reference and accessed as *Loc */ 


PairHeap 
Insert( ElementType Item, PairHeap H, Position *Loc ) 
{ 

Position NewNode; 


NewNode = malloc( sizeof( struct PairNode ) ); 
if( NewNode == NULL ) 

FatalError( "Out of spac 
NewNode->Element = Item; 
NewNode->LeftChild = NewNode->NextSibling = NULL; 
NewNode->Prev = NULL; 





*Loc = NewNode; 
if( H == NULL ) 
return NewNode; 
else 
return CompareAndLink( H, NewNode ); 


/* Lower item in Position P by Delta */ 


PairHeap 
Decreasekey( Position P, ElementType Delta, PairHeap M ) 


i 
ifCDelta < 0 ) 
Error( "Decreasekey called with negative Delta” ); 





P-»Element -= Delta; 
if( P a= FO) 


return H; 











1f( P-»NextSibling != NULL ) 
P-»NextSibling-»Prev = P->Prev; 

if( P-»Prev-»LeftChild == P ) 
P-»Prev-»LeftChild = P-»NextSibling; 

else 
P-»Prev-»NextSibling = P-»NextSibling; 





P-»NextSibling = NULL; 
return CompareAndLink( M, P ): 











1812-49. 配对 堆 :Insert 和 DecreaseKey 





PairHeap 
DeleteMin( ElementType *MinItem, PairHeap H ) 
i 

Position NewRoot = NULL; 


if( IsEmpty H ) ) 
Error( "Pairing heap is empty!” ); 
else 
[ 
"Minltem = H->Element; 
fC W-»LeftChild != NULL ) 
NewRoot = CombineSiblings( H-»LeftChild ); 


free( H ); 


D) 
return NewRoot; 











图 12-50 配对 堆 DeleteMin 
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当然 ,麻烦 在 于 一 些 细节 上 :CombineSiblings 如 何 实现 ? 已 经 提出 几 种 变化 ,但 是 都 不 能 
证 明 它 们 能 够 提供 如 斐 波 那 契 堆 那 样 相同 的 摊 还 界 。 即 使 这 样 ,对 于 涉及 大 量 DecreaseKey 
操作 的 一 般 图 论 应 用 来 说 ,图 12-51 中 的 方法 似乎 总 是 和 其 他 堆 结构 一 样 运行 甚至 比 它们 ( 包 
括 二 叉 堆 ) 还 好 。 





/* Assumes FirstSibling is NOT NULL */ 


PairHeap 

CombineSiblings( Position FirstSibling ) 

4 
static Position TreeArray[ MaxSiblings ]; 
int i, j, NumSiblings; 


/* If only one tree, return it */ 
if( FirstSibling-»NextSibling == NULL ) 
return FirstSibling: 


/* Place each subtree in TreeArray */ 
for( NumSiblings = 0; FirstSibling !- NULL; NumSiblings++ ) 


TreeArray[ NumSiblings ] = FirstSibling: 
FirstSibling-»Prev-»NextSibling = NULL; /* Break links */ 
FirstSibling = FirstSibling-»NextSibling: 


$ 
TreeArray[ NumSiblings ] = NULL; 


/* Combine the subtrees two at a time, */ 
/* going left to right */ 
for( 1 = 0: i + 1 < NumSiblings: i += 2) 
TreeArray[ i ] = CompareAndLink( 
TreeArray[ 3 ), TreeArray( i +1] ); 
/* j has the result of the last CompareAndLink */ 
/* 1f an odd number of trees, get the last one */ 


rin 
if( j == NumSiblings - 3 ) 
TreeArray[ j ] = CompareAndLinkC 
TreeArray( j ], TreeArray[ j + 2 l); 


/* Now go right to left, merging last tree with */ 
/* next to last. The result becomes the new last */ 
forC i j >= 2; j -= 2) 
TreeArray[ j - 2 ] = CompareAndLink( 
TreeArray[ j ~ 2 ], TreeArray[ j ] ); 


return TreeArray[ 0 ] ; 











图 12-51 配对 堆 : 两 未 合并 法 


这 种 方法 是 已 经 提出 的 许多 变形 方法 中 最 简单 和 最 实际 的 方法 ,我 们 称 之 为 两 越 合并 法 
(two-pass merging) » 首先 ,我 们 从 左 到 右 扫描 ,合并 诸 儿子 对 。S 在 第 一 次 扫描 之 后 ,我 们 有 一 
半数 量 的 树 要 合并 。 然 后 执行 第 二 趟 扫描 ,从 右 到 左 。 在 每 一 步 ,我 们 将 第 一 次 扫描 剩 下 的 最 
右边 的 树 和 当前 合并 的 结果 合并 。 例 如 ,如 果 有 8 TILE cy 到 cs, 那么 第 一 次 扫描 进行 c! 和 


三 ”如 果 有 奇数 个 儿子 我 们 必须 仔细 。 此 时 ,将 最 后 一 个 儿子 与 最 右 合并 的 结果 合并 以 完成 第 一 次 扫描 
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02563 Fl ca cs Fl cos cz 和 cs 的 合并 。 结果 得 到 di ,da,ds 和 ds。 我 们 通过 合并 d. 和 d. th 
行 第 二 趟 扫描 ,然后 d. 和 这 个 结果 合并 ,最 后 d, 再 和 刚 得 到 的 结果 合并 。 

这 里 的 实现 方法 要 求 一 个 数组 存储 诸 子 树 。 在 最 坏 情形 下 ,可 能 有 N - 1 项 都 是 根 的 儿 
子 ,因此 这 个 数组 必然 很 大 。 

其 他 一 些 合并 方法 在 练习 中 讨论 。 惟 一 简单 的 而 有 容易 发 现 缺 欠 的 合并 方法 是 从 左 到 右 
单 趟 合并 (练习 12.35)。 配 对 堆 是 “简单 即 更 好 "的 一 个 很 好 的 例子 ,并 且 似 乎 是 要 求 De- 
creaseKey 或 Merge 操作 的 一 些 重要 应 用 所 选择 的 方法 。 


总 结 


在 这 一 章 , 我 们 看 到 二 又 查找 树 几 种 有 效 的 变种 。 自 项 向 下 伸展 树 提供 O(logN ) 排 还 性 
能 ,treap 树 给 出 O(logN ) 随 机 化 的 性 能 ,而 红 黑 树 ,确定 性 跳跃 表 和 AA- 树 则 均 给 出 对 基本 操 
作 的 O(logN) 最 坏 情形 性 能 。 在 各 种 结构 之 间 的 交换 涉及 代码 复杂 性 、 删 除 的 简易 性 以 及 不 
同 的 查找 和 插入 的 开销 。 很 难说 哪 种 结构 是 明显 的 赢家 。 复 现 的 论题 包括 树 的 旋转 以 及 标记 
节点 的 使 用 以 避免 对 NULL 指针 许多 恼人 的 测试 , 若 不 标记 节点 则 这 些 测试 原本 是 必 不 可 少 
的 。 即 使 理论 的 界 不 是 最 优 的 ,k-d 树 还 是 给 出 了 执行 范围 查找 的 实际 方法 。 

最 后 ,我 们 描述 配对 堆 并 将 配对 堆 编 程 , 它 似乎 是 最 实际 的 可 合并 的 优先 队列 ,特别 是 当 

ld 需要 DecreaseKey 操作 的 时 候 。 不 过 ,经 验 的 结果 尚未 得 到 解析 方法 的 分 析 证 实 。 


EE 练习 


12.1 证 明 自 项 向 下 展开 的 摊 还 时 间 为 O(logN)。 
…12.2 证明 对 于 从 底 向 上 展开 存在 每 次 访问 需要 2logN 次 旋转 的 访问 序列 。 
12.3 ”修改 伸展 树 以 支持 对 第 个 最 小 项 的 查询 。 在 确定 性 跳 路 表 中 如 何 处 理 ? 
12.4. 从 经 验 上 比较 简化 的 从 项 向 下 展开 和 原始 描述 的 从 项 向 下 展开 。 
12.5 ”编写 关于 红 黑 树 的 删除 过 程 。 
12.6， 证 明 红 黑 树 的 高 度 最 多 为 log N ,并 证 明 这 个 界 实质 上 不 能 再 降低 。 
12.7 证 明 每 一 棵 AVL 树 都 可 以 被 涂 成 红 黑 树 。 所 有 的 红 黑 树 都 是 AVL 树 吗 ? 
12.8 证 明 1-2-3 确定 性 跳跃 表 可 以 表示 成 2.3-4 树 , 它 的 项 在 内 部 节点 以 及 树叶 上 。 
12.9 如 果 我 们 试图 插入 已 经 在 确定 性 跳跃 表 中 存在 的 项 ,那么 会 发 生 什么 情况 ? 
12.10 证明 在 1-2-3 确定 性 跳跃 表 中 最 多 能 够 用 到 2N 个 节点 。 
*12.11 我 们 可 以 用 C 语言 把 每 一 个 抽象 节点 表示 成 动态 分 配 的 前 向 指针 数组 以 代替 指针 
链表 。 指 出 如 何 用 这 种 方法 实现 1-2-3 确定 性 跳跃 表 并 保持 每 个 操作 的 O(logN) 时 
(Fo 
12.12 SH XT 1-2-3 确定 性 跳跃 表 的 删除 过 程 。 
12.13. 证明 AA- 树 中 关于 删除 的 算法 是 正确 的 。 
12.14 给 出 AA- 树 的 一 种 非 递归 的 自 项 向 下 实现 方法 。 将 其 与 课文 中 的 实现 方法 在 简单 性 
和 效率 方面 进行 比较 。 
12.15 递归 地 编写 出 Skew 过 程 和 Split 过 程 ,使 得 对 删除 操作 每 个 过 程 只 需 调用 一 次 。 
12.16 ”AA- 树 使 用 的 程序 代码 比 BB- 树 少 多 少 行 ? 这 能 使 AA- 树 更 快 吗 ? 
12.17 通过 使 用 一 个 栈 来 非 递归 地 实现 treap 树 的 插入 例 程 。 这 种 努力 值得 吗 ? 
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12.18 通过 使 用 访问 次 数 作为 优先 级 并 在 每 次 访问 后 需要 时 执行 旋转 我 们 可 以 使 treap 树 
成 为 是 自 调整 的 结构 。 将 这 种 方法 和 随机 化 方法 进行 比较 。 或 者 ,在 每 次 访问 一 项 
X 时 生成 一 个 随机 数 。 如 果 这 个 数 小 于 X 当前 的 优先 级 ,那么 就 用 它 作为 X 的 新 
的 优先 级 (执行 相应 的 旋转 ) 。 

**12.19 证 明 , 如 果 把 项 排序 ,那么 即使 优先 级 并 未 排序 ,treap 树 也 可 以 以 线性 时 间 构 造 。 (495) 

12.20 不 用 NullNode 标记 实现 某 些 树 结构 。 使 用 标记 可 以 节省 多 少 编程 工作 ? 

12.21 假设 对 于 每 个 节点 我 们 把 NULL 指针 的 个 数 存储 在 它 的 子 树 中 , 称 之 为 节点 的 权 
(weight)。 采 用 下 列 方法 :如 果 左 子 树 和 右 子 树 的 权 相 差 超出 因子 2, 那 么 彻底 重建 
根 在 该 节点 的 子 树 。 证 明 下 列 结论 : 
a. 我 们 能 够 以 O( 5) 重 建 一 个 节点 ,其 中 S 是 该 节点 的 权 。 
b. 该 算法 每 次 插入 操作 的 挫 还 时 间 为 O(logN)。 
c. 我 们 能 够 以 O( SlogS) 时 间 在 k-d 树 中 重建 一 个 节点 ,其 中 S 是 该 节点 的 权 。 
d. 我 们 可 以 将 该 算法 用 于 kd 树 , 其 每 次 插 人 的 代价 为 O(log N)。 

12.22 ”假设 我 们 对 任意 一 棵 2-d 树 调用 SingleRorateWithLeft。 详 细 解释 其 结果 不 再 是 一 
棵 可 用 的 2-d 树 的 全 部 原因 。 

12.23. 实现 对 于 kd 树 的 插 人 和 范围 查询 。 不 要 使 用 递归 。 

12.24. 对 于 对 应 于 &=3,4,5 的 PP 的 值 ,确定 部 分 匹配 查询 的 时 间 。 

12.25 ”对 于 一 棵 理想 平衡 Cd 树 , 求 出 课文 中 引用 的 一 次 范围 查询 (参见 12.6 节 ) 的 最 坏 情 
形 运行 时 间 。 

12.26 2-d 堆 (2-d heap) 是 允许 每 一 项 拥有 两 个 单个 关键 字 的 一 种 数据 结构 。DeleteMin 操 
作 可 以 对 于 这 两 个 关键 字 中 的 任 一 个 执行 。2-d 堆 是 具有 下 述 性 质 的 完全 二 又 树 : 
对 于 偶数 深度 上 的 任 一 节点 X ,存储 在 X 上 的 项 具有 它 的 子 树 上 最 小 的 #1 关键 
字 , 而 对 于 奇数 深度 上 的 任 一 节点 X ,存储 在 X 上 的 项 具有 它 的 于 树 上 最 小 的 #2 
关键 字 。 
a. 画 出 关于 (1,10),(2,9),(3,8),(4,7),(5,6) 诸 项 的 一 个 可 能 的 2-d Ho 
b. 如 何 找 出 具有 最 小 #1 关键 字 的 项 ? 
c. 如 何 找 出 具有 最 小 #2 关键 字 的 项 ? 
d. 给 出 一 个 将 一 新 的 项 插入 到 2-d 堆 中 的 算法 。 
e. 给 出 一 个 对 于 任 一 关键 字 执行 DeleteMin 操作 的 算法 。 
f. 给 出 一 个 以 线性 时 间 实施 FixHeap 的 算法 。 

12.27. 将 前 面 的 练习 推广 以 得 出 一 个 kd 堆 , 在 这 个 堆 中 每 一 项 都 可 有 个 单个 关键 字 。 
你 应 该 能 够 得 到 下 列 的 界 :以 O(logN ) 实 施 Insert, LA O(2*logN) 实 施 DeleteMin, WA 
及 以 O(kN) 执 行 FixHeap。 

12.28 证明 kd 堆 可 以 用 于 实现 双 端 优先 队列 。 

12.29 抽象 地 推广 k-d 堆 使 得 只 有 那些 根据 关键 字 1 分 支 的 屋 有 两 个 儿子 (所 有 其 他 层 都 
有 一 个 儿子 )。 
a. 我 们 需要 指针 吗 ? 
b. 显然 ,那些 基本 算法 仍然 有 效 ,它们 的 新 的 时 间 界 是 多 少 ? ON 

12.30. 使 用 Ad 树 实现 DeleteMin。 对 于 随机 树 , 你 期 望 其 平均 运行 时 间 是 多 少 ? [496] 
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12.31 使 用 Ad 堆 实现 双 端 队列 (练习 3.26) ,该 队列 也 支持 DeleteMin。 
12.32 使 用 一 个 NullNode 标记 实现 配对 堆 。 
**12.33 证明, 对 于 课文 中 的 配对 堆 算 法 ,每 次 操作 的 摊 还 时 间 为 O(logN)。 

12.34 CombineSiblings 的 另 一 种 方法 是 把 所 有 的 兄弟 都 放 到 一 个 队列 中 ,并 反复 Dequeue 
及 合并 队列 中 的 前 两 项 ,把 结果 放 到 队 尾 。 实 现 这 种 方法 。 

12.35 ”在 前 面 的 练习 中 不 用 队列 而 使 用 栈 是 个 坏 主意 ,通过 给 出 一 个 序列 导致 每 次 操作 花 
3t Q(N) 来 加 以 说 明 。 这 就 是 从 左 到 右 单 趟 合并 。 

12.36 不 用 DecreaseKey 我 们 可 以 除去 父 指针 。 使 用 斜 堆 结果 会 如 何 ? 
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